Branch data Line data Source code
1 : : /* GIMPLE store merging and byte swapping passes.
2 : : Copyright (C) 2009-2024 Free Software Foundation, Inc.
3 : : Contributed by ARM Ltd.
4 : :
5 : : This file is part of GCC.
6 : :
7 : : GCC is free software; you can redistribute it and/or modify it
8 : : under the terms of the GNU General Public License as published by
9 : : the Free Software Foundation; either version 3, or (at your option)
10 : : any later version.
11 : :
12 : : GCC is distributed in the hope that it will be useful, but
13 : : WITHOUT ANY WARRANTY; without even the implied warranty of
14 : : MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
15 : : General Public License for more details.
16 : :
17 : : You should have received a copy of the GNU General Public License
18 : : along with GCC; see the file COPYING3. If not see
19 : : <http://www.gnu.org/licenses/>. */
20 : :
21 : : /* The purpose of the store merging pass is to combine multiple memory stores
22 : : of constant values, values loaded from memory, bitwise operations on those,
23 : : or bit-field values, to consecutive locations, into fewer wider stores.
24 : :
25 : : For example, if we have a sequence peforming four byte stores to
26 : : consecutive memory locations:
27 : : [p ] := imm1;
28 : : [p + 1B] := imm2;
29 : : [p + 2B] := imm3;
30 : : [p + 3B] := imm4;
31 : : we can transform this into a single 4-byte store if the target supports it:
32 : : [p] := imm1:imm2:imm3:imm4 concatenated according to endianness.
33 : :
34 : : Or:
35 : : [p ] := [q ];
36 : : [p + 1B] := [q + 1B];
37 : : [p + 2B] := [q + 2B];
38 : : [p + 3B] := [q + 3B];
39 : : if there is no overlap can be transformed into a single 4-byte
40 : : load followed by single 4-byte store.
41 : :
42 : : Or:
43 : : [p ] := [q ] ^ imm1;
44 : : [p + 1B] := [q + 1B] ^ imm2;
45 : : [p + 2B] := [q + 2B] ^ imm3;
46 : : [p + 3B] := [q + 3B] ^ imm4;
47 : : if there is no overlap can be transformed into a single 4-byte
48 : : load, xored with imm1:imm2:imm3:imm4 and stored using a single 4-byte store.
49 : :
50 : : Or:
51 : : [p:1 ] := imm;
52 : : [p:31] := val & 0x7FFFFFFF;
53 : : we can transform this into a single 4-byte store if the target supports it:
54 : : [p] := imm:(val & 0x7FFFFFFF) concatenated according to endianness.
55 : :
56 : : The algorithm is applied to each basic block in three phases:
57 : :
58 : : 1) Scan through the basic block and record assignments to destinations
59 : : that can be expressed as a store to memory of a certain size at a certain
60 : : bit offset from base expressions we can handle. For bit-fields we also
61 : : record the surrounding bit region, i.e. bits that could be stored in
62 : : a read-modify-write operation when storing the bit-field. Record store
63 : : chains to different bases in a hash_map (m_stores) and make sure to
64 : : terminate such chains when appropriate (for example when the stored
65 : : values get used subsequently).
66 : : These stores can be a result of structure element initializers, array stores
67 : : etc. A store_immediate_info object is recorded for every such store.
68 : : Record as many such assignments to a single base as possible until a
69 : : statement that interferes with the store sequence is encountered.
70 : : Each store has up to 2 operands, which can be a either constant, a memory
71 : : load or an SSA name, from which the value to be stored can be computed.
72 : : At most one of the operands can be a constant. The operands are recorded
73 : : in store_operand_info struct.
74 : :
75 : : 2) Analyze the chains of stores recorded in phase 1) (i.e. the vector of
76 : : store_immediate_info objects) and coalesce contiguous stores into
77 : : merged_store_group objects. For bit-field stores, we don't need to
78 : : require the stores to be contiguous, just their surrounding bit regions
79 : : have to be contiguous. If the expression being stored is different
80 : : between adjacent stores, such as one store storing a constant and
81 : : following storing a value loaded from memory, or if the loaded memory
82 : : objects are not adjacent, a new merged_store_group is created as well.
83 : :
84 : : For example, given the stores:
85 : : [p ] := 0;
86 : : [p + 1B] := 1;
87 : : [p + 3B] := 0;
88 : : [p + 4B] := 1;
89 : : [p + 5B] := 0;
90 : : [p + 6B] := 0;
91 : : This phase would produce two merged_store_group objects, one recording the
92 : : two bytes stored in the memory region [p : p + 1] and another
93 : : recording the four bytes stored in the memory region [p + 3 : p + 6].
94 : :
95 : : 3) The merged_store_group objects produced in phase 2) are processed
96 : : to generate the sequence of wider stores that set the contiguous memory
97 : : regions to the sequence of bytes that correspond to it. This may emit
98 : : multiple stores per store group to handle contiguous stores that are not
99 : : of a size that is a power of 2. For example it can try to emit a 40-bit
100 : : store as a 32-bit store followed by an 8-bit store.
101 : : We try to emit as wide stores as we can while respecting STRICT_ALIGNMENT
102 : : or TARGET_SLOW_UNALIGNED_ACCESS settings.
103 : :
104 : : Note on endianness and example:
105 : : Consider 2 contiguous 16-bit stores followed by 2 contiguous 8-bit stores:
106 : : [p ] := 0x1234;
107 : : [p + 2B] := 0x5678;
108 : : [p + 4B] := 0xab;
109 : : [p + 5B] := 0xcd;
110 : :
111 : : The memory layout for little-endian (LE) and big-endian (BE) must be:
112 : : p |LE|BE|
113 : : ---------
114 : : 0 |34|12|
115 : : 1 |12|34|
116 : : 2 |78|56|
117 : : 3 |56|78|
118 : : 4 |ab|ab|
119 : : 5 |cd|cd|
120 : :
121 : : To merge these into a single 48-bit merged value 'val' in phase 2)
122 : : on little-endian we insert stores to higher (consecutive) bitpositions
123 : : into the most significant bits of the merged value.
124 : : The final merged value would be: 0xcdab56781234
125 : :
126 : : For big-endian we insert stores to higher bitpositions into the least
127 : : significant bits of the merged value.
128 : : The final merged value would be: 0x12345678abcd
129 : :
130 : : Then, in phase 3), we want to emit this 48-bit value as a 32-bit store
131 : : followed by a 16-bit store. Again, we must consider endianness when
132 : : breaking down the 48-bit value 'val' computed above.
133 : : For little endian we emit:
134 : : [p] (32-bit) := 0x56781234; // val & 0x0000ffffffff;
135 : : [p + 4B] (16-bit) := 0xcdab; // (val & 0xffff00000000) >> 32;
136 : :
137 : : Whereas for big-endian we emit:
138 : : [p] (32-bit) := 0x12345678; // (val & 0xffffffff0000) >> 16;
139 : : [p + 4B] (16-bit) := 0xabcd; // val & 0x00000000ffff; */
140 : :
141 : : #include "config.h"
142 : : #include "system.h"
143 : : #include "coretypes.h"
144 : : #include "backend.h"
145 : : #include "tree.h"
146 : : #include "gimple.h"
147 : : #include "builtins.h"
148 : : #include "fold-const.h"
149 : : #include "tree-pass.h"
150 : : #include "ssa.h"
151 : : #include "gimple-pretty-print.h"
152 : : #include "alias.h"
153 : : #include "fold-const.h"
154 : : #include "print-tree.h"
155 : : #include "tree-hash-traits.h"
156 : : #include "gimple-iterator.h"
157 : : #include "gimplify.h"
158 : : #include "gimple-fold.h"
159 : : #include "stor-layout.h"
160 : : #include "timevar.h"
161 : : #include "cfganal.h"
162 : : #include "cfgcleanup.h"
163 : : #include "tree-cfg.h"
164 : : #include "except.h"
165 : : #include "tree-eh.h"
166 : : #include "target.h"
167 : : #include "gimplify-me.h"
168 : : #include "rtl.h"
169 : : #include "expr.h" /* For get_bit_range. */
170 : : #include "optabs-tree.h"
171 : : #include "dbgcnt.h"
172 : : #include "selftest.h"
173 : :
174 : : /* The maximum size (in bits) of the stores this pass should generate. */
175 : : #define MAX_STORE_BITSIZE (BITS_PER_WORD)
176 : : #define MAX_STORE_BYTES (MAX_STORE_BITSIZE / BITS_PER_UNIT)
177 : :
178 : : /* Limit to bound the number of aliasing checks for loads with the same
179 : : vuse as the corresponding store. */
180 : : #define MAX_STORE_ALIAS_CHECKS 64
181 : :
182 : : namespace {
183 : :
184 : : struct bswap_stat
185 : : {
186 : : /* Number of hand-written 16-bit nop / bswaps found. */
187 : : int found_16bit;
188 : :
189 : : /* Number of hand-written 32-bit nop / bswaps found. */
190 : : int found_32bit;
191 : :
192 : : /* Number of hand-written 64-bit nop / bswaps found. */
193 : : int found_64bit;
194 : : } nop_stats, bswap_stats;
195 : :
196 : : /* A symbolic number structure is used to detect byte permutation and selection
197 : : patterns of a source. To achieve that, its field N contains an artificial
198 : : number consisting of BITS_PER_MARKER sized markers tracking where does each
199 : : byte come from in the source:
200 : :
201 : : 0 - target byte has the value 0
202 : : FF - target byte has an unknown value (eg. due to sign extension)
203 : : 1..size - marker value is the byte index in the source (0 for lsb).
204 : :
205 : : To detect permutations on memory sources (arrays and structures), a symbolic
206 : : number is also associated:
207 : : - a base address BASE_ADDR and an OFFSET giving the address of the source;
208 : : - a range which gives the difference between the highest and lowest accessed
209 : : memory location to make such a symbolic number;
210 : : - the address SRC of the source element of lowest address as a convenience
211 : : to easily get BASE_ADDR + offset + lowest bytepos;
212 : : - number of expressions N_OPS bitwise ored together to represent
213 : : approximate cost of the computation.
214 : :
215 : : Note 1: the range is different from size as size reflects the size of the
216 : : type of the current expression. For instance, for an array char a[],
217 : : (short) a[0] | (short) a[3] would have a size of 2 but a range of 4 while
218 : : (short) a[0] | ((short) a[0] << 1) would still have a size of 2 but this
219 : : time a range of 1.
220 : :
221 : : Note 2: for non-memory sources, range holds the same value as size.
222 : :
223 : : Note 3: SRC points to the SSA_NAME in case of non-memory source. */
224 : :
225 : : struct symbolic_number {
226 : : uint64_t n;
227 : : tree type;
228 : : tree base_addr;
229 : : tree offset;
230 : : poly_int64 bytepos;
231 : : tree src;
232 : : tree alias_set;
233 : : tree vuse;
234 : : unsigned HOST_WIDE_INT range;
235 : : int n_ops;
236 : : };
237 : :
238 : : #define BITS_PER_MARKER 8
239 : : #define MARKER_MASK ((1 << BITS_PER_MARKER) - 1)
240 : : #define MARKER_BYTE_UNKNOWN MARKER_MASK
241 : : #define HEAD_MARKER(n, size) \
242 : : ((n) & ((uint64_t) MARKER_MASK << (((size) - 1) * BITS_PER_MARKER)))
243 : :
244 : : /* The number which the find_bswap_or_nop_1 result should match in
245 : : order to have a nop. The number is masked according to the size of
246 : : the symbolic number before using it. */
247 : : #define CMPNOP (sizeof (int64_t) < 8 ? 0 : \
248 : : (uint64_t)0x08070605 << 32 | 0x04030201)
249 : :
250 : : /* The number which the find_bswap_or_nop_1 result should match in
251 : : order to have a byte swap. The number is masked according to the
252 : : size of the symbolic number before using it. */
253 : : #define CMPXCHG (sizeof (int64_t) < 8 ? 0 : \
254 : : (uint64_t)0x01020304 << 32 | 0x05060708)
255 : :
256 : : /* Perform a SHIFT or ROTATE operation by COUNT bits on symbolic
257 : : number N. Return false if the requested operation is not permitted
258 : : on a symbolic number. */
259 : :
260 : : inline bool
261 : 206982 : do_shift_rotate (enum tree_code code,
262 : : struct symbolic_number *n,
263 : : int count)
264 : : {
265 : 206982 : int i, size = TYPE_PRECISION (n->type) / BITS_PER_UNIT;
266 : 206982 : uint64_t head_marker;
267 : :
268 : 206982 : if (count < 0
269 : 206982 : || count >= TYPE_PRECISION (n->type)
270 : 413964 : || count % BITS_PER_UNIT != 0)
271 : : return false;
272 : 164718 : count = (count / BITS_PER_UNIT) * BITS_PER_MARKER;
273 : :
274 : : /* Zero out the extra bits of N in order to avoid them being shifted
275 : : into the significant bits. */
276 : 164718 : if (size < 64 / BITS_PER_MARKER)
277 : 42163 : n->n &= ((uint64_t) 1 << (size * BITS_PER_MARKER)) - 1;
278 : :
279 : 164718 : switch (code)
280 : : {
281 : 133668 : case LSHIFT_EXPR:
282 : 133668 : n->n <<= count;
283 : 133668 : break;
284 : 28773 : case RSHIFT_EXPR:
285 : 28773 : head_marker = HEAD_MARKER (n->n, size);
286 : 28773 : n->n >>= count;
287 : : /* Arithmetic shift of signed type: result is dependent on the value. */
288 : 28773 : if (!TYPE_UNSIGNED (n->type) && head_marker)
289 : 2570 : for (i = 0; i < count / BITS_PER_MARKER; i++)
290 : 1710 : n->n |= (uint64_t) MARKER_BYTE_UNKNOWN
291 : 1710 : << ((size - 1 - i) * BITS_PER_MARKER);
292 : : break;
293 : 25 : case LROTATE_EXPR:
294 : 25 : n->n = (n->n << count) | (n->n >> ((size * BITS_PER_MARKER) - count));
295 : 25 : break;
296 : 2252 : case RROTATE_EXPR:
297 : 2252 : n->n = (n->n >> count) | (n->n << ((size * BITS_PER_MARKER) - count));
298 : 2252 : break;
299 : : default:
300 : : return false;
301 : : }
302 : : /* Zero unused bits for size. */
303 : 164718 : if (size < 64 / BITS_PER_MARKER)
304 : 42163 : n->n &= ((uint64_t) 1 << (size * BITS_PER_MARKER)) - 1;
305 : : return true;
306 : : }
307 : :
308 : : /* Perform sanity checking for the symbolic number N and the gimple
309 : : statement STMT. */
310 : :
311 : : inline bool
312 : 322875 : verify_symbolic_number_p (struct symbolic_number *n, gimple *stmt)
313 : : {
314 : 322875 : tree lhs_type;
315 : :
316 : 322875 : lhs_type = TREE_TYPE (gimple_get_lhs (stmt));
317 : :
318 : 322875 : if (TREE_CODE (lhs_type) != INTEGER_TYPE
319 : 322875 : && TREE_CODE (lhs_type) != ENUMERAL_TYPE)
320 : : return false;
321 : :
322 : 310913 : if (TYPE_PRECISION (lhs_type) != TYPE_PRECISION (n->type))
323 : 0 : return false;
324 : :
325 : : return true;
326 : : }
327 : :
328 : : /* Initialize the symbolic number N for the bswap pass from the base element
329 : : SRC manipulated by the bitwise OR expression. */
330 : :
331 : : bool
332 : 1133228 : init_symbolic_number (struct symbolic_number *n, tree src)
333 : : {
334 : 1133228 : int size;
335 : :
336 : 1133228 : if (!INTEGRAL_TYPE_P (TREE_TYPE (src)) && !POINTER_TYPE_P (TREE_TYPE (src)))
337 : : return false;
338 : :
339 : 984014 : n->base_addr = n->offset = n->alias_set = n->vuse = NULL_TREE;
340 : 984014 : n->src = src;
341 : :
342 : : /* Set up the symbolic number N by setting each byte to a value between 1 and
343 : : the byte size of rhs1. The highest order byte is set to n->size and the
344 : : lowest order byte to 1. */
345 : 984014 : n->type = TREE_TYPE (src);
346 : 984014 : size = TYPE_PRECISION (n->type);
347 : 984014 : if (size % BITS_PER_UNIT != 0)
348 : : return false;
349 : 968442 : size /= BITS_PER_UNIT;
350 : 968442 : if (size > 64 / BITS_PER_MARKER)
351 : : return false;
352 : 967504 : n->range = size;
353 : 967504 : n->n = CMPNOP;
354 : 967504 : n->n_ops = 1;
355 : :
356 : 967504 : if (size < 64 / BITS_PER_MARKER)
357 : 451974 : n->n &= ((uint64_t) 1 << (size * BITS_PER_MARKER)) - 1;
358 : :
359 : : return true;
360 : : }
361 : :
362 : : /* Check if STMT might be a byte swap or a nop from a memory source and returns
363 : : the answer. If so, REF is that memory source and the base of the memory area
364 : : accessed and the offset of the access from that base are recorded in N. */
365 : :
366 : : static bool
367 : 5029154 : find_bswap_or_nop_load (gimple *stmt, tree ref, struct symbolic_number *n)
368 : : {
369 : : /* Leaf node is an array or component ref. Memorize its base and
370 : : offset from base to compare to other such leaf node. */
371 : 5029154 : poly_int64 bitsize, bitpos, bytepos;
372 : 5029154 : machine_mode mode;
373 : 5029154 : int unsignedp, reversep, volatilep;
374 : 5029154 : tree offset, base_addr;
375 : :
376 : : /* Not prepared to handle PDP endian. */
377 : 5029154 : if (BYTES_BIG_ENDIAN != WORDS_BIG_ENDIAN)
378 : : return false;
379 : :
380 : 5935436 : if (!gimple_assign_load_p (stmt) || gimple_has_volatile_ops (stmt))
381 : : return false;
382 : :
383 : 901329 : base_addr = get_inner_reference (ref, &bitsize, &bitpos, &offset, &mode,
384 : : &unsignedp, &reversep, &volatilep);
385 : :
386 : 901329 : if (TREE_CODE (base_addr) == TARGET_MEM_REF)
387 : : /* Do not rewrite TARGET_MEM_REF. */
388 : : return false;
389 : 864925 : else if (TREE_CODE (base_addr) == MEM_REF)
390 : : {
391 : 433704 : poly_offset_int bit_offset = 0;
392 : 433704 : tree off = TREE_OPERAND (base_addr, 1);
393 : :
394 : 433704 : if (!integer_zerop (off))
395 : : {
396 : 80288 : poly_offset_int boff = mem_ref_offset (base_addr);
397 : 80288 : boff <<= LOG2_BITS_PER_UNIT;
398 : 80288 : bit_offset += boff;
399 : : }
400 : :
401 : 433704 : base_addr = TREE_OPERAND (base_addr, 0);
402 : :
403 : : /* Avoid returning a negative bitpos as this may wreak havoc later. */
404 : 433704 : if (maybe_lt (bit_offset, 0))
405 : : {
406 : 3528 : tree byte_offset = wide_int_to_tree
407 : 3528 : (sizetype, bits_to_bytes_round_down (bit_offset));
408 : 3528 : bit_offset = num_trailing_bits (bit_offset);
409 : 3528 : if (offset)
410 : 0 : offset = size_binop (PLUS_EXPR, offset, byte_offset);
411 : : else
412 : 3528 : offset = byte_offset;
413 : : }
414 : :
415 : 433704 : bitpos += bit_offset.force_shwi ();
416 : : }
417 : : else
418 : 431221 : base_addr = build_fold_addr_expr (base_addr);
419 : :
420 : 5165375 : if (!multiple_p (bitpos, BITS_PER_UNIT, &bytepos))
421 : : return false;
422 : 863965 : if (!multiple_p (bitsize, BITS_PER_UNIT))
423 : : return false;
424 : 862869 : if (reversep)
425 : : return false;
426 : :
427 : 862860 : if (!init_symbolic_number (n, ref))
428 : : return false;
429 : 727744 : n->base_addr = base_addr;
430 : 727744 : n->offset = offset;
431 : 727744 : n->bytepos = bytepos;
432 : 727744 : n->alias_set = reference_alias_ptr_type (ref);
433 : 727744 : n->vuse = gimple_vuse (stmt);
434 : 727744 : return true;
435 : : }
436 : :
437 : : /* Compute the symbolic number N representing the result of a bitwise OR,
438 : : bitwise XOR or plus on 2 symbolic number N1 and N2 whose source statements
439 : : are respectively SOURCE_STMT1 and SOURCE_STMT2. CODE is the operation. */
440 : :
441 : : gimple *
442 : 163162 : perform_symbolic_merge (gimple *source_stmt1, struct symbolic_number *n1,
443 : : gimple *source_stmt2, struct symbolic_number *n2,
444 : : struct symbolic_number *n, enum tree_code code)
445 : : {
446 : 163162 : int i, size;
447 : 163162 : uint64_t mask;
448 : 163162 : gimple *source_stmt;
449 : 163162 : struct symbolic_number *n_start;
450 : :
451 : 163162 : tree rhs1 = gimple_assign_rhs1 (source_stmt1);
452 : 163162 : if (TREE_CODE (rhs1) == BIT_FIELD_REF
453 : 163162 : && TREE_CODE (TREE_OPERAND (rhs1, 0)) == SSA_NAME)
454 : 365 : rhs1 = TREE_OPERAND (rhs1, 0);
455 : 163162 : tree rhs2 = gimple_assign_rhs1 (source_stmt2);
456 : 163162 : if (TREE_CODE (rhs2) == BIT_FIELD_REF
457 : 163162 : && TREE_CODE (TREE_OPERAND (rhs2, 0)) == SSA_NAME)
458 : 352 : rhs2 = TREE_OPERAND (rhs2, 0);
459 : :
460 : : /* Sources are different, cancel bswap if they are not memory location with
461 : : the same base (array, structure, ...). */
462 : 163162 : if (rhs1 != rhs2)
463 : : {
464 : 154973 : uint64_t inc;
465 : 154973 : HOST_WIDE_INT start1, start2, start_sub, end_sub, end1, end2, end;
466 : 154973 : struct symbolic_number *toinc_n_ptr, *n_end;
467 : 154973 : basic_block bb1, bb2;
468 : :
469 : 124718 : if (!n1->base_addr || !n2->base_addr
470 : 279685 : || !operand_equal_p (n1->base_addr, n2->base_addr, 0))
471 : 87048 : return NULL;
472 : :
473 : 67925 : if (!n1->offset != !n2->offset
474 : 67925 : || (n1->offset && !operand_equal_p (n1->offset, n2->offset, 0)))
475 : 3224 : return NULL;
476 : :
477 : 64701 : start1 = 0;
478 : 64701 : if (!(n2->bytepos - n1->bytepos).is_constant (&start2))
479 : : return NULL;
480 : :
481 : 64701 : if (start1 < start2)
482 : : {
483 : : n_start = n1;
484 : : start_sub = start2 - start1;
485 : : }
486 : : else
487 : : {
488 : 13885 : n_start = n2;
489 : 13885 : start_sub = start1 - start2;
490 : : }
491 : :
492 : 64701 : bb1 = gimple_bb (source_stmt1);
493 : 64701 : bb2 = gimple_bb (source_stmt2);
494 : 64701 : if (dominated_by_p (CDI_DOMINATORS, bb1, bb2))
495 : : source_stmt = source_stmt1;
496 : : else
497 : 4652 : source_stmt = source_stmt2;
498 : :
499 : : /* Find the highest address at which a load is performed and
500 : : compute related info. */
501 : 64701 : end1 = start1 + (n1->range - 1);
502 : 64701 : end2 = start2 + (n2->range - 1);
503 : 64701 : if (end1 < end2)
504 : : {
505 : 64701 : end = end2;
506 : : end_sub = end2 - end1;
507 : : }
508 : : else
509 : : {
510 : : end = end1;
511 : : end_sub = end1 - end2;
512 : : }
513 : 64701 : n_end = (end2 > end1) ? n2 : n1;
514 : :
515 : : /* Find symbolic number whose lsb is the most significant. */
516 : 64701 : if (BYTES_BIG_ENDIAN)
517 : : toinc_n_ptr = (n_end == n1) ? n2 : n1;
518 : : else
519 : 64701 : toinc_n_ptr = (n_start == n1) ? n2 : n1;
520 : :
521 : 64701 : n->range = end - MIN (start1, start2) + 1;
522 : :
523 : : /* Check that the range of memory covered can be represented by
524 : : a symbolic number. */
525 : 64701 : if (n->range > 64 / BITS_PER_MARKER)
526 : : return NULL;
527 : :
528 : : /* Reinterpret byte marks in symbolic number holding the value of
529 : : bigger weight according to target endianness. */
530 : 50659 : inc = BYTES_BIG_ENDIAN ? end_sub : start_sub;
531 : 50659 : size = TYPE_PRECISION (n1->type) / BITS_PER_UNIT;
532 : 406288 : for (i = 0; i < size; i++, inc <<= BITS_PER_MARKER)
533 : : {
534 : 355629 : unsigned marker
535 : 355629 : = (toinc_n_ptr->n >> (i * BITS_PER_MARKER)) & MARKER_MASK;
536 : 355629 : if (marker && marker != MARKER_BYTE_UNKNOWN)
537 : 142013 : toinc_n_ptr->n += inc;
538 : : }
539 : : }
540 : : else
541 : : {
542 : 8189 : n->range = n1->range;
543 : 8189 : n_start = n1;
544 : 8189 : source_stmt = source_stmt1;
545 : : }
546 : :
547 : 58848 : if (!n1->alias_set
548 : 58848 : || alias_ptr_types_compatible_p (n1->alias_set, n2->alias_set))
549 : 39204 : n->alias_set = n1->alias_set;
550 : : else
551 : 19644 : n->alias_set = ptr_type_node;
552 : 58848 : n->vuse = n_start->vuse;
553 : 58848 : n->base_addr = n_start->base_addr;
554 : 58848 : n->offset = n_start->offset;
555 : 58848 : n->src = n_start->src;
556 : 58848 : n->bytepos = n_start->bytepos;
557 : 58848 : n->type = n_start->type;
558 : 58848 : size = TYPE_PRECISION (n->type) / BITS_PER_UNIT;
559 : 58848 : uint64_t res_n = n1->n | n2->n;
560 : :
561 : 464256 : for (i = 0, mask = MARKER_MASK; i < size; i++, mask <<= BITS_PER_MARKER)
562 : : {
563 : 406618 : uint64_t masked1, masked2;
564 : :
565 : 406618 : masked1 = n1->n & mask;
566 : 406618 : masked2 = n2->n & mask;
567 : : /* If at least one byte is 0, all of 0 | x == 0 ^ x == 0 + x == x. */
568 : 406618 : if (masked1 && masked2)
569 : : {
570 : : /* + can carry into upper bits, just punt. */
571 : 8716 : if (code == PLUS_EXPR)
572 : : return NULL;
573 : : /* x | x is still x. */
574 : 7506 : if (code == BIT_IOR_EXPR && masked1 == masked2)
575 : 220 : continue;
576 : 7286 : if (code == BIT_XOR_EXPR)
577 : : {
578 : : /* x ^ x is 0, but MARKER_BYTE_UNKNOWN stands for
579 : : unknown values and unknown ^ unknown is unknown. */
580 : 1610 : if (masked1 == masked2
581 : 208 : && masked1 != ((uint64_t) MARKER_BYTE_UNKNOWN
582 : 146 : << i * BITS_PER_MARKER))
583 : : {
584 : 62 : res_n &= ~mask;
585 : 62 : continue;
586 : : }
587 : : }
588 : : /* Otherwise set the byte to unknown, it might still be
589 : : later masked off. */
590 : 7224 : res_n |= mask;
591 : : }
592 : : }
593 : 57638 : n->n = res_n;
594 : 57638 : n->n_ops = n1->n_ops + n2->n_ops;
595 : :
596 : 57638 : return source_stmt;
597 : : }
598 : :
599 : : /* find_bswap_or_nop_1 invokes itself recursively with N and tries to perform
600 : : the operation given by the rhs of STMT on the result. If the operation
601 : : could successfully be executed the function returns a gimple stmt whose
602 : : rhs's first tree is the expression of the source operand and NULL
603 : : otherwise. */
604 : :
605 : : gimple *
606 : 5928334 : find_bswap_or_nop_1 (gimple *stmt, struct symbolic_number *n, int limit)
607 : : {
608 : 5928334 : enum tree_code code;
609 : 5928334 : tree rhs1, rhs2 = NULL;
610 : 5928334 : gimple *rhs1_stmt, *rhs2_stmt, *source_stmt1;
611 : 5928334 : enum gimple_rhs_class rhs_class;
612 : :
613 : 5928334 : if (!limit
614 : 5875842 : || !is_gimple_assign (stmt)
615 : 10966398 : || stmt_can_throw_internal (cfun, stmt))
616 : 899180 : return NULL;
617 : :
618 : 5029154 : rhs1 = gimple_assign_rhs1 (stmt);
619 : :
620 : 5029154 : if (find_bswap_or_nop_load (stmt, rhs1, n))
621 : : return stmt;
622 : :
623 : : /* Handle BIT_FIELD_REF. */
624 : 4301410 : if (TREE_CODE (rhs1) == BIT_FIELD_REF
625 : 4301410 : && TREE_CODE (TREE_OPERAND (rhs1, 0)) == SSA_NAME)
626 : : {
627 : 12320 : if (!tree_fits_uhwi_p (TREE_OPERAND (rhs1, 1))
628 : 12320 : || !tree_fits_uhwi_p (TREE_OPERAND (rhs1, 2)))
629 : : return NULL;
630 : :
631 : 12320 : unsigned HOST_WIDE_INT bitsize = tree_to_uhwi (TREE_OPERAND (rhs1, 1));
632 : 12320 : unsigned HOST_WIDE_INT bitpos = tree_to_uhwi (TREE_OPERAND (rhs1, 2));
633 : 12320 : if (bitpos % BITS_PER_UNIT == 0
634 : 12320 : && bitsize % BITS_PER_UNIT == 0
635 : 24640 : && init_symbolic_number (n, TREE_OPERAND (rhs1, 0)))
636 : : {
637 : : /* Handle big-endian bit numbering in BIT_FIELD_REF. */
638 : 506 : if (BYTES_BIG_ENDIAN)
639 : : bitpos = TYPE_PRECISION (n->type) - bitpos - bitsize;
640 : :
641 : : /* Shift. */
642 : 506 : if (!do_shift_rotate (RSHIFT_EXPR, n, bitpos))
643 : : return NULL;
644 : :
645 : : /* Mask. */
646 : : uint64_t mask = 0;
647 : : uint64_t tmp = (1 << BITS_PER_UNIT) - 1;
648 : 1293 : for (unsigned i = 0; i < bitsize / BITS_PER_UNIT;
649 : 787 : i++, tmp <<= BITS_PER_UNIT)
650 : 787 : mask |= (uint64_t) MARKER_MASK << (i * BITS_PER_MARKER);
651 : 506 : n->n &= mask;
652 : :
653 : : /* Convert. */
654 : 506 : n->type = TREE_TYPE (rhs1);
655 : 506 : if (!verify_symbolic_number_p (n, stmt))
656 : : return NULL;
657 : :
658 : 493 : if (!n->base_addr)
659 : 493 : n->range = TYPE_PRECISION (n->type) / BITS_PER_UNIT;
660 : :
661 : 493 : return stmt;
662 : : }
663 : :
664 : 11814 : return NULL;
665 : : }
666 : :
667 : 4289090 : if (TREE_CODE (rhs1) != SSA_NAME)
668 : : return NULL;
669 : :
670 : 3978614 : code = gimple_assign_rhs_code (stmt);
671 : 3978614 : rhs_class = gimple_assign_rhs_class (stmt);
672 : 3978614 : rhs1_stmt = SSA_NAME_DEF_STMT (rhs1);
673 : :
674 : 3978614 : if (rhs_class == GIMPLE_BINARY_RHS)
675 : 3682514 : rhs2 = gimple_assign_rhs2 (stmt);
676 : :
677 : : /* Handle unary rhs and binary rhs with integer constants as second
678 : : operand. */
679 : :
680 : 3978614 : if (rhs_class == GIMPLE_UNARY_RHS
681 : 3685144 : || (rhs_class == GIMPLE_BINARY_RHS
682 : 3682514 : && TREE_CODE (rhs2) == INTEGER_CST))
683 : : {
684 : 1816231 : if (code != BIT_AND_EXPR
685 : 1816231 : && code != LSHIFT_EXPR
686 : : && code != RSHIFT_EXPR
687 : 1748493 : && code != LROTATE_EXPR
688 : 1689364 : && code != RROTATE_EXPR
689 : 1684593 : && !CONVERT_EXPR_CODE_P (code))
690 : : return NULL;
691 : :
692 : 386460 : source_stmt1 = find_bswap_or_nop_1 (rhs1_stmt, n, limit - 1);
693 : :
694 : : /* If find_bswap_or_nop_1 returned NULL, STMT is a leaf node and
695 : : we have to initialize the symbolic number. */
696 : 386460 : if (!source_stmt1)
697 : : {
698 : 258048 : if (gimple_assign_load_p (stmt)
699 : 258048 : || !init_symbolic_number (n, rhs1))
700 : 18794 : return NULL;
701 : : source_stmt1 = stmt;
702 : : }
703 : :
704 : 367666 : switch (code)
705 : : {
706 : 30891 : case BIT_AND_EXPR:
707 : 30891 : {
708 : 30891 : int i, size = TYPE_PRECISION (n->type) / BITS_PER_UNIT;
709 : 30891 : uint64_t val = int_cst_value (rhs2), mask = 0;
710 : 30891 : uint64_t tmp = (1 << BITS_PER_UNIT) - 1;
711 : :
712 : : /* Only constants masking full bytes are allowed. */
713 : 151836 : for (i = 0; i < size; i++, tmp <<= BITS_PER_UNIT)
714 : 139330 : if ((val & tmp) != 0 && (val & tmp) != tmp)
715 : : return NULL;
716 : 120945 : else if (val & tmp)
717 : 62560 : mask |= (uint64_t) MARKER_MASK << (i * BITS_PER_MARKER);
718 : :
719 : 12506 : n->n &= mask;
720 : : }
721 : 12506 : break;
722 : 100413 : case LSHIFT_EXPR:
723 : 100413 : case RSHIFT_EXPR:
724 : 100413 : case LROTATE_EXPR:
725 : 100413 : case RROTATE_EXPR:
726 : 100413 : if (!do_shift_rotate (code, n, (int) TREE_INT_CST_LOW (rhs2)))
727 : : return NULL;
728 : : break;
729 : 236362 : CASE_CONVERT:
730 : 236362 : {
731 : 236362 : int i, type_size, old_type_size;
732 : 236362 : tree type;
733 : :
734 : 236362 : type = TREE_TYPE (gimple_assign_lhs (stmt));
735 : 236362 : type_size = TYPE_PRECISION (type);
736 : 236362 : if (type_size % BITS_PER_UNIT != 0)
737 : : return NULL;
738 : 233892 : type_size /= BITS_PER_UNIT;
739 : 233892 : if (type_size > 64 / BITS_PER_MARKER)
740 : : return NULL;
741 : :
742 : : /* Sign extension: result is dependent on the value. */
743 : 233362 : old_type_size = TYPE_PRECISION (n->type) / BITS_PER_UNIT;
744 : 323560 : if (!TYPE_UNSIGNED (n->type) && type_size > old_type_size
745 : 268640 : && HEAD_MARKER (n->n, old_type_size))
746 : 169532 : for (i = 0; i < type_size - old_type_size; i++)
747 : 134292 : n->n |= (uint64_t) MARKER_BYTE_UNKNOWN
748 : 134292 : << ((type_size - 1 - i) * BITS_PER_MARKER);
749 : :
750 : 233362 : if (type_size < 64 / BITS_PER_MARKER)
751 : : {
752 : : /* If STMT casts to a smaller type mask out the bits not
753 : : belonging to the target type. */
754 : 123652 : n->n &= ((uint64_t) 1 << (type_size * BITS_PER_MARKER)) - 1;
755 : : }
756 : 233362 : n->type = type;
757 : 233362 : if (!n->base_addr)
758 : 158919 : n->range = type_size;
759 : : }
760 : : break;
761 : : default:
762 : : return NULL;
763 : 304017 : };
764 : 304017 : return verify_symbolic_number_p (n, stmt) ? source_stmt1 : NULL;
765 : : }
766 : :
767 : : /* Handle binary rhs. */
768 : :
769 : 2159753 : if (rhs_class == GIMPLE_BINARY_RHS)
770 : : {
771 : 2159753 : struct symbolic_number n1, n2;
772 : 2159753 : gimple *source_stmt, *source_stmt2;
773 : :
774 : 2159753 : if (!rhs2 || TREE_CODE (rhs2) != SSA_NAME)
775 : : return NULL;
776 : :
777 : 2101911 : rhs2_stmt = SSA_NAME_DEF_STMT (rhs2);
778 : :
779 : 2101911 : switch (code)
780 : : {
781 : 1890536 : case BIT_IOR_EXPR:
782 : 1890536 : case BIT_XOR_EXPR:
783 : 1890536 : case PLUS_EXPR:
784 : 1890536 : source_stmt1 = find_bswap_or_nop_1 (rhs1_stmt, &n1, limit - 1);
785 : :
786 : 1890536 : if (!source_stmt1)
787 : : return NULL;
788 : :
789 : 245817 : source_stmt2 = find_bswap_or_nop_1 (rhs2_stmt, &n2, limit - 1);
790 : :
791 : 245817 : if (!source_stmt2)
792 : : return NULL;
793 : :
794 : 131706 : if (TYPE_PRECISION (n1.type) != TYPE_PRECISION (n2.type))
795 : : return NULL;
796 : :
797 : 131706 : if (n1.vuse != n2.vuse)
798 : : return NULL;
799 : :
800 : 108289 : source_stmt
801 : 108289 : = perform_symbolic_merge (source_stmt1, &n1, source_stmt2, &n2, n,
802 : : code);
803 : :
804 : 108289 : if (!source_stmt)
805 : : return NULL;
806 : :
807 : 18352 : if (!verify_symbolic_number_p (n, stmt))
808 : : return NULL;
809 : :
810 : : break;
811 : : default:
812 : : return NULL;
813 : : }
814 : : return source_stmt;
815 : : }
816 : : return NULL;
817 : : }
818 : :
819 : : /* Helper for find_bswap_or_nop and try_coalesce_bswap to compute
820 : : *CMPXCHG, *CMPNOP and adjust *N. */
821 : :
822 : : void
823 : 39472 : find_bswap_or_nop_finalize (struct symbolic_number *n, uint64_t *cmpxchg,
824 : : uint64_t *cmpnop, bool *cast64_to_32)
825 : : {
826 : 39472 : unsigned rsize;
827 : 39472 : uint64_t tmpn, mask;
828 : :
829 : : /* The number which the find_bswap_or_nop_1 result should match in order
830 : : to have a full byte swap. The number is shifted to the right
831 : : according to the size of the symbolic number before using it. */
832 : 39472 : *cmpxchg = CMPXCHG;
833 : 39472 : *cmpnop = CMPNOP;
834 : 39472 : *cast64_to_32 = false;
835 : :
836 : : /* Find real size of result (highest non-zero byte). */
837 : 39472 : if (n->base_addr)
838 : 291066 : for (tmpn = n->n, rsize = 0; tmpn; tmpn >>= BITS_PER_MARKER, rsize++);
839 : : else
840 : 2014 : rsize = n->range;
841 : :
842 : : /* Zero out the bits corresponding to untouched bytes in original gimple
843 : : expression. */
844 : 39472 : if (n->range < (int) sizeof (int64_t))
845 : : {
846 : 10833 : mask = ((uint64_t) 1 << (n->range * BITS_PER_MARKER)) - 1;
847 : 10833 : if (n->base_addr == NULL
848 : 1054 : && n->range == 4
849 : 11580 : && int_size_in_bytes (TREE_TYPE (n->src)) == 8)
850 : : {
851 : : /* If all bytes in n->n are either 0 or in [5..8] range, this
852 : : might be a candidate for (unsigned) __builtin_bswap64 (src).
853 : : It is not worth it for (unsigned short) __builtin_bswap64 (src)
854 : : or (unsigned short) __builtin_bswap32 (src). */
855 : 153 : *cast64_to_32 = true;
856 : 371 : for (tmpn = n->n; tmpn; tmpn >>= BITS_PER_MARKER)
857 : 322 : if ((tmpn & MARKER_MASK)
858 : 322 : && ((tmpn & MARKER_MASK) <= 4 || (tmpn & MARKER_MASK) > 8))
859 : : {
860 : 104 : *cast64_to_32 = false;
861 : 104 : break;
862 : : }
863 : : }
864 : 10833 : if (*cast64_to_32)
865 : 49 : *cmpxchg &= mask;
866 : : else
867 : 10784 : *cmpxchg >>= (64 / BITS_PER_MARKER - n->range) * BITS_PER_MARKER;
868 : 10833 : *cmpnop &= mask;
869 : : }
870 : :
871 : : /* Zero out the bits corresponding to unused bytes in the result of the
872 : : gimple expression. */
873 : 39472 : if (rsize < n->range)
874 : : {
875 : 2479 : if (BYTES_BIG_ENDIAN)
876 : : {
877 : : mask = ((uint64_t) 1 << (rsize * BITS_PER_MARKER)) - 1;
878 : : *cmpxchg &= mask;
879 : : if (n->range - rsize == sizeof (int64_t))
880 : : *cmpnop = 0;
881 : : else
882 : : *cmpnop >>= (n->range - rsize) * BITS_PER_MARKER;
883 : : }
884 : : else
885 : : {
886 : 2479 : mask = ((uint64_t) 1 << (rsize * BITS_PER_MARKER)) - 1;
887 : 2479 : if (n->range - rsize == sizeof (int64_t))
888 : 6 : *cmpxchg = 0;
889 : : else
890 : 2473 : *cmpxchg >>= (n->range - rsize) * BITS_PER_MARKER;
891 : 2479 : *cmpnop &= mask;
892 : : }
893 : 2479 : n->range = rsize;
894 : : }
895 : :
896 : 39472 : if (*cast64_to_32)
897 : 49 : n->range = 8;
898 : 39472 : n->range *= BITS_PER_UNIT;
899 : 39472 : }
900 : :
901 : : /* Helper function for find_bswap_or_nop,
902 : : Return true if N is a swap or nop with MASK. */
903 : : static bool
904 : 12936 : is_bswap_or_nop_p (uint64_t n, uint64_t cmpxchg,
905 : : uint64_t cmpnop, uint64_t* mask,
906 : : bool* bswap)
907 : : {
908 : 12936 : *mask = ~(uint64_t) 0;
909 : 12936 : if (n == cmpnop)
910 : 3986 : *bswap = false;
911 : 8950 : else if (n == cmpxchg)
912 : 1765 : *bswap = true;
913 : : else
914 : : {
915 : : int set = 0;
916 : 15527 : for (uint64_t msk = MARKER_MASK; msk; msk <<= BITS_PER_MARKER)
917 : 15092 : if ((n & msk) == 0)
918 : 5375 : *mask &= ~msk;
919 : 9717 : else if ((n & msk) == (cmpxchg & msk))
920 : 2967 : set++;
921 : : else
922 : : return false;
923 : :
924 : 435 : if (set < 2)
925 : : return false;
926 : 433 : *bswap = true;
927 : : }
928 : : return true;
929 : : }
930 : :
931 : :
932 : : /* Check if STMT completes a bswap implementation or a read in a given
933 : : endianness consisting of ORs, SHIFTs and ANDs and sets *BSWAP
934 : : accordingly. It also sets N to represent the kind of operations
935 : : performed: size of the resulting expression and whether it works on
936 : : a memory source, and if so alias-set and vuse. At last, the
937 : : function returns a stmt whose rhs's first tree is the source
938 : : expression. */
939 : :
940 : : gimple *
941 : 1973024 : find_bswap_or_nop (gimple *stmt, struct symbolic_number *n, bool *bswap,
942 : : bool *cast64_to_32, uint64_t *mask, uint64_t* l_rotate)
943 : : {
944 : 1973024 : tree type_size = TYPE_SIZE_UNIT (TREE_TYPE (gimple_get_lhs (stmt)));
945 : 1973024 : if (!tree_fits_uhwi_p (type_size))
946 : : return NULL;
947 : :
948 : : /* The last parameter determines the depth search limit. It usually
949 : : correlates directly to the number n of bytes to be touched. We
950 : : increase that number by 2 * (log2(n) + 1) here in order to also
951 : : cover signed -> unsigned conversions of the src operand as can be seen
952 : : in libgcc, and for initial shift/and operation of the src operand. */
953 : 1973024 : int limit = tree_to_uhwi (type_size);
954 : 1973024 : limit += 2 * (1 + (int) ceil_log2 ((unsigned HOST_WIDE_INT) limit));
955 : 1973024 : gimple *ins_stmt = find_bswap_or_nop_1 (stmt, n, limit);
956 : :
957 : 1973024 : if (!ins_stmt)
958 : : {
959 : 1965342 : if (gimple_assign_rhs_code (stmt) != CONSTRUCTOR
960 : : || BYTES_BIG_ENDIAN != WORDS_BIG_ENDIAN)
961 : 1973024 : return NULL;
962 : 33902 : unsigned HOST_WIDE_INT sz = tree_to_uhwi (type_size) * BITS_PER_UNIT;
963 : 33902 : if (sz != 16 && sz != 32 && sz != 64)
964 : : return NULL;
965 : 30694 : tree rhs = gimple_assign_rhs1 (stmt);
966 : 1997067 : if (CONSTRUCTOR_NELTS (rhs) == 0)
967 : : return NULL;
968 : 30227 : tree eltype = TREE_TYPE (TREE_TYPE (rhs));
969 : 30227 : unsigned HOST_WIDE_INT eltsz
970 : 30227 : = int_size_in_bytes (eltype) * BITS_PER_UNIT;
971 : 30227 : if (TYPE_PRECISION (eltype) != eltsz)
972 : : return NULL;
973 : 30073 : constructor_elt *elt;
974 : 30073 : unsigned int i;
975 : 30073 : tree type = build_nonstandard_integer_type (sz, 1);
976 : 51341 : FOR_EACH_VEC_SAFE_ELT (CONSTRUCTOR_ELTS (rhs), i, elt)
977 : : {
978 : 47625 : if (TREE_CODE (elt->value) != SSA_NAME
979 : 47625 : || !INTEGRAL_TYPE_P (TREE_TYPE (elt->value)))
980 : 26357 : return NULL;
981 : 45638 : struct symbolic_number n1;
982 : 45638 : gimple *source_stmt
983 : 45638 : = find_bswap_or_nop_1 (SSA_NAME_DEF_STMT (elt->value), &n1,
984 : : limit - 1);
985 : :
986 : 45638 : if (!source_stmt)
987 : : return NULL;
988 : :
989 : 28520 : n1.type = type;
990 : 28520 : if (!n1.base_addr)
991 : 11010 : n1.range = sz / BITS_PER_UNIT;
992 : :
993 : 28520 : if (i == 0)
994 : : {
995 : 15689 : ins_stmt = source_stmt;
996 : 15689 : *n = n1;
997 : : }
998 : : else
999 : : {
1000 : 12831 : if (n->vuse != n1.vuse)
1001 : 7252 : return NULL;
1002 : :
1003 : 8048 : struct symbolic_number n0 = *n;
1004 : :
1005 : 8048 : if (!BYTES_BIG_ENDIAN)
1006 : : {
1007 : 8048 : if (!do_shift_rotate (LSHIFT_EXPR, &n1, i * eltsz))
1008 : : return NULL;
1009 : : }
1010 : : else if (!do_shift_rotate (LSHIFT_EXPR, &n0, eltsz))
1011 : : return NULL;
1012 : 8048 : ins_stmt
1013 : 8048 : = perform_symbolic_merge (ins_stmt, &n0, source_stmt, &n1, n,
1014 : : BIT_IOR_EXPR);
1015 : :
1016 : 8048 : if (!ins_stmt)
1017 : : return NULL;
1018 : : }
1019 : : }
1020 : : }
1021 : :
1022 : 11398 : uint64_t cmpxchg, cmpnop;
1023 : 11398 : uint64_t orig_range = n->range * BITS_PER_UNIT;
1024 : 11398 : find_bswap_or_nop_finalize (n, &cmpxchg, &cmpnop, cast64_to_32);
1025 : :
1026 : : /* A complete byte swap should make the symbolic number to start with
1027 : : the largest digit in the highest order byte. Unchanged symbolic
1028 : : number indicates a read with same endianness as target architecture. */
1029 : 11398 : *l_rotate = 0;
1030 : 11398 : uint64_t tmp_n = n->n;
1031 : 11398 : if (!is_bswap_or_nop_p (tmp_n, cmpxchg, cmpnop, mask, bswap))
1032 : : {
1033 : : /* Try bswap + lrotate. */
1034 : : /* TODO, handle cast64_to_32 and big/litte_endian memory
1035 : : source when rsize < range. */
1036 : 5315 : if (n->range == orig_range
1037 : : /* There're case like 0x300000200 for uint32->uint64 cast,
1038 : : Don't hanlde this. */
1039 : 4339 : && n->range == TYPE_PRECISION (n->type)
1040 : 1869 : && ((orig_range == 32
1041 : 519 : && optab_handler (rotl_optab, SImode) != CODE_FOR_nothing)
1042 : 1350 : || (orig_range == 64
1043 : 1320 : && optab_handler (rotl_optab, DImode) != CODE_FOR_nothing))
1044 : 7154 : && (tmp_n & MARKER_MASK) < orig_range / BITS_PER_UNIT)
1045 : : {
1046 : 1538 : uint64_t range = (orig_range / BITS_PER_UNIT) * BITS_PER_MARKER;
1047 : 1538 : uint64_t count = (tmp_n & MARKER_MASK) * BITS_PER_MARKER;
1048 : : /* .i.e. hanlde 0x203040506070800 when lower byte is zero. */
1049 : 1538 : if (!count)
1050 : : {
1051 : 66 : for (uint64_t i = 1; i != range / BITS_PER_MARKER; i++)
1052 : : {
1053 : 66 : count = (tmp_n >> i * BITS_PER_MARKER) & MARKER_MASK;
1054 : 66 : if (count)
1055 : : {
1056 : : /* Count should be meaningful not 0xff. */
1057 : 36 : if (count <= range / BITS_PER_MARKER)
1058 : : {
1059 : 36 : count = (count + i) * BITS_PER_MARKER % range;
1060 : 36 : break;
1061 : : }
1062 : : else
1063 : : return NULL;
1064 : : }
1065 : : }
1066 : : }
1067 : 1538 : tmp_n = tmp_n >> count | tmp_n << (range - count);
1068 : 1538 : if (orig_range == 32)
1069 : 332 : tmp_n &= (1ULL << 32) - 1;
1070 : 1538 : if (!is_bswap_or_nop_p (tmp_n, cmpxchg, cmpnop, mask, bswap))
1071 : : return NULL;
1072 : 101 : *l_rotate = count / BITS_PER_MARKER * BITS_PER_UNIT;
1073 : 101 : gcc_assert (*bswap);
1074 : : }
1075 : : else
1076 : 3777 : return NULL;
1077 : : }
1078 : :
1079 : : /* Useless bit manipulation performed by code. */
1080 : 6184 : if (!n->base_addr && n->n == cmpnop && n->n_ops == 1)
1081 : : return NULL;
1082 : :
1083 : : return ins_stmt;
1084 : : }
1085 : :
1086 : : const pass_data pass_data_optimize_bswap =
1087 : : {
1088 : : GIMPLE_PASS, /* type */
1089 : : "bswap", /* name */
1090 : : OPTGROUP_NONE, /* optinfo_flags */
1091 : : TV_NONE, /* tv_id */
1092 : : PROP_ssa, /* properties_required */
1093 : : 0, /* properties_provided */
1094 : : 0, /* properties_destroyed */
1095 : : 0, /* todo_flags_start */
1096 : : 0, /* todo_flags_finish */
1097 : : };
1098 : :
1099 : : class pass_optimize_bswap : public gimple_opt_pass
1100 : : {
1101 : : public:
1102 : 280114 : pass_optimize_bswap (gcc::context *ctxt)
1103 : 560228 : : gimple_opt_pass (pass_data_optimize_bswap, ctxt)
1104 : : {}
1105 : :
1106 : : /* opt_pass methods: */
1107 : 996137 : bool gate (function *) final override
1108 : : {
1109 : 996137 : return flag_expensive_optimizations && optimize && BITS_PER_UNIT == 8;
1110 : : }
1111 : :
1112 : : unsigned int execute (function *) final override;
1113 : :
1114 : : }; // class pass_optimize_bswap
1115 : :
1116 : : /* Helper function for bswap_replace. Build VIEW_CONVERT_EXPR from
1117 : : VAL to TYPE. If VAL has different type size, emit a NOP_EXPR cast
1118 : : first. */
1119 : :
1120 : : static tree
1121 : 1635 : bswap_view_convert (gimple_stmt_iterator *gsi, tree type, tree val,
1122 : : bool before)
1123 : : {
1124 : 1635 : gcc_assert (INTEGRAL_TYPE_P (TREE_TYPE (val))
1125 : : || POINTER_TYPE_P (TREE_TYPE (val)));
1126 : 1635 : if (TYPE_SIZE (type) != TYPE_SIZE (TREE_TYPE (val)))
1127 : : {
1128 : 26 : HOST_WIDE_INT prec = TREE_INT_CST_LOW (TYPE_SIZE (type));
1129 : 26 : if (POINTER_TYPE_P (TREE_TYPE (val)))
1130 : : {
1131 : 1 : gimple *g
1132 : 1 : = gimple_build_assign (make_ssa_name (pointer_sized_int_node),
1133 : : NOP_EXPR, val);
1134 : 1 : if (before)
1135 : 1 : gsi_insert_before (gsi, g, GSI_SAME_STMT);
1136 : : else
1137 : 0 : gsi_insert_after (gsi, g, GSI_NEW_STMT);
1138 : 1 : val = gimple_assign_lhs (g);
1139 : : }
1140 : 26 : tree itype = build_nonstandard_integer_type (prec, 1);
1141 : 26 : gimple *g = gimple_build_assign (make_ssa_name (itype), NOP_EXPR, val);
1142 : 26 : if (before)
1143 : 25 : gsi_insert_before (gsi, g, GSI_SAME_STMT);
1144 : : else
1145 : 1 : gsi_insert_after (gsi, g, GSI_NEW_STMT);
1146 : 26 : val = gimple_assign_lhs (g);
1147 : : }
1148 : 1635 : return build1 (VIEW_CONVERT_EXPR, type, val);
1149 : : }
1150 : :
1151 : : /* Perform the bswap optimization: replace the expression computed in the rhs
1152 : : of gsi_stmt (GSI) (or if NULL add instead of replace) by an equivalent
1153 : : bswap, load or load + bswap expression.
1154 : : Which of these alternatives replace the rhs is given by N->base_addr (non
1155 : : null if a load is needed) and BSWAP. The type, VUSE and set-alias of the
1156 : : load to perform are also given in N while the builtin bswap invoke is given
1157 : : in FNDEL. Finally, if a load is involved, INS_STMT refers to one of the
1158 : : load statements involved to construct the rhs in gsi_stmt (GSI) and
1159 : : N->range gives the size of the rhs expression for maintaining some
1160 : : statistics.
1161 : :
1162 : : Note that if the replacement involve a load and if gsi_stmt (GSI) is
1163 : : non-NULL, that stmt is moved just after INS_STMT to do the load with the
1164 : : same VUSE which can lead to gsi_stmt (GSI) changing of basic block. */
1165 : :
1166 : : tree
1167 : 4493 : bswap_replace (gimple_stmt_iterator gsi, gimple *ins_stmt, tree fndecl,
1168 : : tree bswap_type, tree load_type, struct symbolic_number *n,
1169 : : bool bswap, uint64_t mask, uint64_t l_rotate)
1170 : : {
1171 : 4493 : tree src, tmp, tgt = NULL_TREE;
1172 : 4493 : gimple *bswap_stmt, *mask_stmt = NULL, *rotl_stmt = NULL;
1173 : 4493 : tree_code conv_code = NOP_EXPR;
1174 : :
1175 : 4493 : gimple *cur_stmt = gsi_stmt (gsi);
1176 : 4493 : src = n->src;
1177 : 4493 : if (cur_stmt)
1178 : : {
1179 : 3886 : tgt = gimple_assign_lhs (cur_stmt);
1180 : 3886 : if (gimple_assign_rhs_code (cur_stmt) == CONSTRUCTOR
1181 : 1635 : && tgt
1182 : 5521 : && VECTOR_TYPE_P (TREE_TYPE (tgt)))
1183 : : conv_code = VIEW_CONVERT_EXPR;
1184 : : }
1185 : :
1186 : : /* Need to load the value from memory first. */
1187 : 4493 : if (n->base_addr)
1188 : : {
1189 : 3799 : gimple_stmt_iterator gsi_ins = gsi;
1190 : 3799 : if (ins_stmt)
1191 : 3772 : gsi_ins = gsi_for_stmt (ins_stmt);
1192 : 3799 : tree addr_expr, addr_tmp, val_expr, val_tmp;
1193 : 3799 : tree load_offset_ptr, aligned_load_type;
1194 : 3799 : gimple *load_stmt;
1195 : 3799 : unsigned align = get_object_alignment (src);
1196 : 3799 : poly_int64 load_offset = 0;
1197 : :
1198 : 3799 : if (cur_stmt)
1199 : : {
1200 : 3441 : basic_block ins_bb = gimple_bb (ins_stmt);
1201 : 3441 : basic_block cur_bb = gimple_bb (cur_stmt);
1202 : 3441 : if (!dominated_by_p (CDI_DOMINATORS, cur_bb, ins_bb))
1203 : 2422 : return NULL_TREE;
1204 : :
1205 : : /* Move cur_stmt just before one of the load of the original
1206 : : to ensure it has the same VUSE. See PR61517 for what could
1207 : : go wrong. */
1208 : 3441 : if (gimple_bb (cur_stmt) != gimple_bb (ins_stmt))
1209 : 1164 : reset_flow_sensitive_info (gimple_assign_lhs (cur_stmt));
1210 : 3441 : gsi_move_before (&gsi, &gsi_ins);
1211 : 3441 : gsi = gsi_for_stmt (cur_stmt);
1212 : : }
1213 : : else
1214 : 358 : gsi = gsi_ins;
1215 : :
1216 : : /* Compute address to load from and cast according to the size
1217 : : of the load. */
1218 : 3799 : addr_expr = build_fold_addr_expr (src);
1219 : 3799 : if (is_gimple_mem_ref_addr (addr_expr))
1220 : 412 : addr_tmp = unshare_expr (addr_expr);
1221 : : else
1222 : : {
1223 : 3387 : addr_tmp = unshare_expr (n->base_addr);
1224 : 3387 : if (!is_gimple_mem_ref_addr (addr_tmp))
1225 : 0 : addr_tmp = force_gimple_operand_gsi_1 (&gsi, addr_tmp,
1226 : : is_gimple_mem_ref_addr,
1227 : : NULL_TREE, true,
1228 : : GSI_SAME_STMT);
1229 : 3387 : load_offset = n->bytepos;
1230 : 3387 : if (n->offset)
1231 : : {
1232 : 0 : tree off
1233 : 0 : = force_gimple_operand_gsi (&gsi, unshare_expr (n->offset),
1234 : : true, NULL_TREE, true,
1235 : : GSI_SAME_STMT);
1236 : 0 : gimple *stmt
1237 : 0 : = gimple_build_assign (make_ssa_name (TREE_TYPE (addr_tmp)),
1238 : : POINTER_PLUS_EXPR, addr_tmp, off);
1239 : 0 : gsi_insert_before (&gsi, stmt, GSI_SAME_STMT);
1240 : 0 : addr_tmp = gimple_assign_lhs (stmt);
1241 : : }
1242 : : }
1243 : :
1244 : : /* Perform the load. */
1245 : 3799 : aligned_load_type = load_type;
1246 : 3799 : if (align < TYPE_ALIGN (load_type))
1247 : 3103 : aligned_load_type = build_aligned_type (load_type, align);
1248 : 3799 : load_offset_ptr = build_int_cst (n->alias_set, load_offset);
1249 : 3799 : val_expr = fold_build2 (MEM_REF, aligned_load_type, addr_tmp,
1250 : : load_offset_ptr);
1251 : :
1252 : 3799 : if (!bswap)
1253 : : {
1254 : 2422 : if (n->range == 16)
1255 : 306 : nop_stats.found_16bit++;
1256 : 2116 : else if (n->range == 32)
1257 : 633 : nop_stats.found_32bit++;
1258 : : else
1259 : : {
1260 : 1483 : gcc_assert (n->range == 64);
1261 : 1483 : nop_stats.found_64bit++;
1262 : : }
1263 : :
1264 : : /* Convert the result of load if necessary. */
1265 : 2422 : if (tgt && !useless_type_conversion_p (TREE_TYPE (tgt), load_type))
1266 : : {
1267 : 1900 : val_tmp = make_temp_ssa_name (aligned_load_type, NULL,
1268 : : "load_dst");
1269 : 1900 : load_stmt = gimple_build_assign (val_tmp, val_expr);
1270 : 1900 : gimple_set_vuse (load_stmt, n->vuse);
1271 : 1900 : gsi_insert_before (&gsi, load_stmt, GSI_SAME_STMT);
1272 : 1900 : if (conv_code == VIEW_CONVERT_EXPR)
1273 : 1304 : val_tmp = bswap_view_convert (&gsi, TREE_TYPE (tgt), val_tmp,
1274 : : true);
1275 : 1900 : gimple_assign_set_rhs_with_ops (&gsi, conv_code, val_tmp);
1276 : 1900 : update_stmt (cur_stmt);
1277 : : }
1278 : 522 : else if (cur_stmt)
1279 : : {
1280 : 445 : gimple_assign_set_rhs_with_ops (&gsi, MEM_REF, val_expr);
1281 : 445 : gimple_set_vuse (cur_stmt, n->vuse);
1282 : 445 : update_stmt (cur_stmt);
1283 : : }
1284 : : else
1285 : : {
1286 : 77 : tgt = make_ssa_name (load_type);
1287 : 77 : cur_stmt = gimple_build_assign (tgt, MEM_REF, val_expr);
1288 : 77 : gimple_set_vuse (cur_stmt, n->vuse);
1289 : 77 : gsi_insert_before (&gsi, cur_stmt, GSI_SAME_STMT);
1290 : : }
1291 : :
1292 : 2422 : if (dump_file)
1293 : : {
1294 : 26 : fprintf (dump_file,
1295 : : "%d bit load in target endianness found at: ",
1296 : 26 : (int) n->range);
1297 : 26 : print_gimple_stmt (dump_file, cur_stmt, 0);
1298 : : }
1299 : 2422 : return tgt;
1300 : : }
1301 : : else
1302 : : {
1303 : 1377 : val_tmp = make_temp_ssa_name (aligned_load_type, NULL, "load_dst");
1304 : 1377 : load_stmt = gimple_build_assign (val_tmp, val_expr);
1305 : 1377 : gimple_set_vuse (load_stmt, n->vuse);
1306 : 1377 : gsi_insert_before (&gsi, load_stmt, GSI_SAME_STMT);
1307 : : }
1308 : 1377 : src = val_tmp;
1309 : : }
1310 : 694 : else if (!bswap)
1311 : : {
1312 : 249 : gimple *g = NULL;
1313 : 249 : if (tgt && !useless_type_conversion_p (TREE_TYPE (tgt), TREE_TYPE (src)))
1314 : : {
1315 : 118 : if (!is_gimple_val (src))
1316 : : return NULL_TREE;
1317 : 118 : if (conv_code == VIEW_CONVERT_EXPR)
1318 : 118 : src = bswap_view_convert (&gsi, TREE_TYPE (tgt), src, true);
1319 : 118 : g = gimple_build_assign (tgt, conv_code, src);
1320 : : }
1321 : 131 : else if (cur_stmt)
1322 : 7 : g = gimple_build_assign (tgt, src);
1323 : : else
1324 : : tgt = src;
1325 : 249 : if (n->range == 16)
1326 : 67 : nop_stats.found_16bit++;
1327 : 182 : else if (n->range == 32)
1328 : 104 : nop_stats.found_32bit++;
1329 : : else
1330 : : {
1331 : 78 : gcc_assert (n->range == 64);
1332 : 78 : nop_stats.found_64bit++;
1333 : : }
1334 : 249 : if (dump_file)
1335 : : {
1336 : 1 : fprintf (dump_file,
1337 : : "%d bit reshuffle in target endianness found at: ",
1338 : : (int) n->range);
1339 : 1 : if (cur_stmt)
1340 : 0 : print_gimple_stmt (dump_file, cur_stmt, 0);
1341 : : else
1342 : : {
1343 : 1 : print_generic_expr (dump_file, tgt, TDF_NONE);
1344 : 1 : fprintf (dump_file, "\n");
1345 : : }
1346 : : }
1347 : 249 : if (cur_stmt)
1348 : 125 : gsi_replace (&gsi, g, true);
1349 : 249 : return tgt;
1350 : : }
1351 : 445 : else if (TREE_CODE (src) == BIT_FIELD_REF)
1352 : 0 : src = TREE_OPERAND (src, 0);
1353 : :
1354 : 1822 : if (n->range == 16)
1355 : 664 : bswap_stats.found_16bit++;
1356 : 1158 : else if (n->range == 32)
1357 : 773 : bswap_stats.found_32bit++;
1358 : : else
1359 : : {
1360 : 385 : gcc_assert (n->range == 64);
1361 : 385 : bswap_stats.found_64bit++;
1362 : : }
1363 : :
1364 : 1822 : tmp = src;
1365 : :
1366 : : /* Convert the src expression if necessary. */
1367 : 1822 : if (!useless_type_conversion_p (TREE_TYPE (tmp), bswap_type))
1368 : : {
1369 : 150 : gimple *convert_stmt;
1370 : :
1371 : 150 : tmp = make_temp_ssa_name (bswap_type, NULL, "bswapsrc");
1372 : 150 : convert_stmt = gimple_build_assign (tmp, NOP_EXPR, src);
1373 : 150 : gsi_insert_before (&gsi, convert_stmt, GSI_SAME_STMT);
1374 : : }
1375 : :
1376 : : /* Canonical form for 16 bit bswap is a rotate expression. Only 16bit values
1377 : : are considered as rotation of 2N bit values by N bits is generally not
1378 : : equivalent to a bswap. Consider for instance 0x01020304 r>> 16 which
1379 : : gives 0x03040102 while a bswap for that value is 0x04030201. */
1380 : 1822 : if (bswap && n->range == 16)
1381 : : {
1382 : 664 : tree count = build_int_cst (NULL, BITS_PER_UNIT);
1383 : 664 : src = fold_build2 (LROTATE_EXPR, bswap_type, tmp, count);
1384 : 664 : bswap_stmt = gimple_build_assign (NULL, src);
1385 : 664 : }
1386 : : else
1387 : 1158 : bswap_stmt = gimple_build_call (fndecl, 1, tmp);
1388 : :
1389 : 1822 : if (tgt == NULL_TREE)
1390 : 406 : tgt = make_ssa_name (bswap_type);
1391 : 1822 : tmp = tgt;
1392 : :
1393 : 1822 : if (mask != ~(uint64_t) 0)
1394 : : {
1395 : 433 : tree m = build_int_cst (bswap_type, mask);
1396 : 433 : tmp = make_temp_ssa_name (bswap_type, NULL, "bswapdst");
1397 : 433 : gimple_set_lhs (bswap_stmt, tmp);
1398 : 433 : mask_stmt = gimple_build_assign (tgt, BIT_AND_EXPR, tmp, m);
1399 : 433 : tmp = tgt;
1400 : : }
1401 : :
1402 : 1822 : if (l_rotate)
1403 : : {
1404 : 101 : tree m = build_int_cst (bswap_type, l_rotate);
1405 : 133 : tmp = make_temp_ssa_name (bswap_type, NULL,
1406 : : mask_stmt ? "bswapmaskdst" : "bswapdst");
1407 : 133 : gimple_set_lhs (mask_stmt ? mask_stmt : bswap_stmt, tmp);
1408 : 101 : rotl_stmt = gimple_build_assign (tgt, LROTATE_EXPR, tmp, m);
1409 : 101 : tmp = tgt;
1410 : : }
1411 : :
1412 : : /* Convert the result if necessary. */
1413 : 1822 : if (!useless_type_conversion_p (TREE_TYPE (tgt), bswap_type))
1414 : : {
1415 : 560 : tmp = make_temp_ssa_name (bswap_type, NULL, "bswapdst");
1416 : 560 : tree atmp = tmp;
1417 : 560 : gimple_stmt_iterator gsi2 = gsi;
1418 : 560 : if (conv_code == VIEW_CONVERT_EXPR)
1419 : 213 : atmp = bswap_view_convert (&gsi2, TREE_TYPE (tgt), tmp, false);
1420 : 560 : gimple *convert_stmt = gimple_build_assign (tgt, conv_code, atmp);
1421 : 560 : gsi_insert_after (&gsi2, convert_stmt, GSI_SAME_STMT);
1422 : : }
1423 : :
1424 : 3543 : gimple_set_lhs (rotl_stmt ? rotl_stmt
1425 : 1721 : : mask_stmt ? mask_stmt : bswap_stmt, tmp);
1426 : :
1427 : 1822 : if (dump_file)
1428 : : {
1429 : 30 : fprintf (dump_file, "%d bit bswap implementation found at: ",
1430 : 30 : (int) n->range);
1431 : 30 : if (cur_stmt)
1432 : 21 : print_gimple_stmt (dump_file, cur_stmt, 0);
1433 : : else
1434 : : {
1435 : 9 : print_generic_expr (dump_file, tgt, TDF_NONE);
1436 : 9 : fprintf (dump_file, "\n");
1437 : : }
1438 : : }
1439 : :
1440 : 1822 : if (cur_stmt)
1441 : : {
1442 : 1416 : if (rotl_stmt)
1443 : 101 : gsi_insert_after (&gsi, rotl_stmt, GSI_SAME_STMT);
1444 : 1416 : if (mask_stmt)
1445 : 433 : gsi_insert_after (&gsi, mask_stmt, GSI_SAME_STMT);
1446 : 1416 : gsi_insert_after (&gsi, bswap_stmt, GSI_SAME_STMT);
1447 : 1416 : gsi_remove (&gsi, true);
1448 : : }
1449 : : else
1450 : : {
1451 : 406 : gsi_insert_before (&gsi, bswap_stmt, GSI_SAME_STMT);
1452 : 406 : if (mask_stmt)
1453 : 0 : gsi_insert_before (&gsi, mask_stmt, GSI_SAME_STMT);
1454 : 406 : if (rotl_stmt)
1455 : 0 : gsi_insert_after (&gsi, rotl_stmt, GSI_SAME_STMT);
1456 : : }
1457 : : return tgt;
1458 : : }
1459 : :
1460 : : /* Try to optimize an assignment CUR_STMT with CONSTRUCTOR on the rhs
1461 : : using bswap optimizations. CDI_DOMINATORS need to be
1462 : : computed on entry. Return true if it has been optimized and
1463 : : TODO_update_ssa is needed. */
1464 : :
1465 : : static bool
1466 : 1160475 : maybe_optimize_vector_constructor (gimple *cur_stmt)
1467 : : {
1468 : 1160475 : tree fndecl = NULL_TREE, bswap_type = NULL_TREE, load_type;
1469 : 1160475 : struct symbolic_number n;
1470 : 1160475 : bool bswap;
1471 : :
1472 : 1160475 : gcc_assert (is_gimple_assign (cur_stmt)
1473 : : && gimple_assign_rhs_code (cur_stmt) == CONSTRUCTOR);
1474 : :
1475 : 1160475 : tree rhs = gimple_assign_rhs1 (cur_stmt);
1476 : 1160475 : if (!VECTOR_TYPE_P (TREE_TYPE (rhs))
1477 : 97272 : || !INTEGRAL_TYPE_P (TREE_TYPE (TREE_TYPE (rhs)))
1478 : 1254646 : || gimple_assign_lhs (cur_stmt) == NULL_TREE)
1479 : : return false;
1480 : :
1481 : 94171 : HOST_WIDE_INT sz = int_size_in_bytes (TREE_TYPE (rhs)) * BITS_PER_UNIT;
1482 : 94171 : switch (sz)
1483 : : {
1484 : 1111 : case 16:
1485 : 1111 : load_type = bswap_type = uint16_type_node;
1486 : 1111 : break;
1487 : 1566 : case 32:
1488 : 1566 : if (builtin_decl_explicit_p (BUILT_IN_BSWAP32)
1489 : 3112 : && optab_handler (bswap_optab, SImode) != CODE_FOR_nothing)
1490 : : {
1491 : 1546 : load_type = uint32_type_node;
1492 : 1546 : fndecl = builtin_decl_explicit (BUILT_IN_BSWAP32);
1493 : 1546 : bswap_type = TREE_VALUE (TYPE_ARG_TYPES (TREE_TYPE (fndecl)));
1494 : : }
1495 : : else
1496 : 20 : return false;
1497 : 1546 : break;
1498 : 28246 : case 64:
1499 : 28246 : if (builtin_decl_explicit_p (BUILT_IN_BSWAP64)
1500 : 55675 : && (optab_handler (bswap_optab, DImode) != CODE_FOR_nothing
1501 : 23495 : || (word_mode == SImode
1502 : 23495 : && builtin_decl_explicit_p (BUILT_IN_BSWAP32)
1503 : 23495 : && optab_handler (bswap_optab, SImode) != CODE_FOR_nothing)))
1504 : : {
1505 : 27429 : load_type = uint64_type_node;
1506 : 27429 : fndecl = builtin_decl_explicit (BUILT_IN_BSWAP64);
1507 : 27429 : bswap_type = TREE_VALUE (TYPE_ARG_TYPES (TREE_TYPE (fndecl)));
1508 : : }
1509 : : else
1510 : 817 : return false;
1511 : 27429 : break;
1512 : : default:
1513 : : return false;
1514 : : }
1515 : :
1516 : 30086 : bool cast64_to_32;
1517 : 30086 : uint64_t mask, l_rotate;
1518 : 30086 : gimple *ins_stmt = find_bswap_or_nop (cur_stmt, &n, &bswap,
1519 : : &cast64_to_32, &mask, &l_rotate);
1520 : 30086 : if (!ins_stmt
1521 : 1941 : || n.range != (unsigned HOST_WIDE_INT) sz
1522 : 1600 : || cast64_to_32
1523 : 1600 : || mask != ~(uint64_t) 0)
1524 : : return false;
1525 : :
1526 : 1600 : if (bswap && !fndecl && n.range != 16)
1527 : : return false;
1528 : :
1529 : 1600 : memset (&nop_stats, 0, sizeof (nop_stats));
1530 : 1600 : memset (&bswap_stats, 0, sizeof (bswap_stats));
1531 : 1600 : return bswap_replace (gsi_for_stmt (cur_stmt), ins_stmt, fndecl,
1532 : : bswap_type, load_type, &n, bswap, mask,
1533 : 1600 : l_rotate) != NULL_TREE;
1534 : : }
1535 : :
1536 : : /* Find manual byte swap implementations as well as load in a given
1537 : : endianness. Byte swaps are turned into a bswap builtin invokation
1538 : : while endian loads are converted to bswap builtin invokation or
1539 : : simple load according to the target endianness. */
1540 : :
1541 : : unsigned int
1542 : 924249 : pass_optimize_bswap::execute (function *fun)
1543 : : {
1544 : 924249 : basic_block bb;
1545 : 924249 : bool bswap32_p, bswap64_p;
1546 : 924249 : bool changed = false;
1547 : 924249 : tree bswap32_type = NULL_TREE, bswap64_type = NULL_TREE;
1548 : :
1549 : 924249 : bswap32_p = (builtin_decl_explicit_p (BUILT_IN_BSWAP32)
1550 : 1760197 : && optab_handler (bswap_optab, SImode) != CODE_FOR_nothing);
1551 : 924249 : bswap64_p = (builtin_decl_explicit_p (BUILT_IN_BSWAP64)
1552 : 1760197 : && (optab_handler (bswap_optab, DImode) != CODE_FOR_nothing
1553 : 120088 : || (bswap32_p && word_mode == SImode)));
1554 : :
1555 : : /* Determine the argument type of the builtins. The code later on
1556 : : assumes that the return and argument type are the same. */
1557 : 924249 : if (bswap32_p)
1558 : : {
1559 : 835948 : tree fndecl = builtin_decl_explicit (BUILT_IN_BSWAP32);
1560 : 835948 : bswap32_type = TREE_VALUE (TYPE_ARG_TYPES (TREE_TYPE (fndecl)));
1561 : : }
1562 : :
1563 : 924249 : if (bswap64_p)
1564 : : {
1565 : 835948 : tree fndecl = builtin_decl_explicit (BUILT_IN_BSWAP64);
1566 : 835948 : bswap64_type = TREE_VALUE (TYPE_ARG_TYPES (TREE_TYPE (fndecl)));
1567 : : }
1568 : :
1569 : 924249 : memset (&nop_stats, 0, sizeof (nop_stats));
1570 : 924249 : memset (&bswap_stats, 0, sizeof (bswap_stats));
1571 : 924249 : calculate_dominance_info (CDI_DOMINATORS);
1572 : :
1573 : 9241444 : FOR_EACH_BB_FN (bb, fun)
1574 : : {
1575 : 8317195 : gimple_stmt_iterator gsi;
1576 : :
1577 : : /* We do a reverse scan for bswap patterns to make sure we get the
1578 : : widest match. As bswap pattern matching doesn't handle previously
1579 : : inserted smaller bswap replacements as sub-patterns, the wider
1580 : : variant wouldn't be detected. */
1581 : 86249935 : for (gsi = gsi_last_bb (bb); !gsi_end_p (gsi);)
1582 : : {
1583 : 69615545 : gimple *ins_stmt, *cur_stmt = gsi_stmt (gsi);
1584 : 69615545 : tree fndecl = NULL_TREE, bswap_type = NULL_TREE, load_type;
1585 : 69615545 : enum tree_code code;
1586 : 69615545 : struct symbolic_number n;
1587 : 69615545 : bool bswap, cast64_to_32;
1588 : 69615545 : uint64_t mask, l_rotate;
1589 : :
1590 : : /* This gsi_prev (&gsi) is not part of the for loop because cur_stmt
1591 : : might be moved to a different basic block by bswap_replace and gsi
1592 : : must not points to it if that's the case. Moving the gsi_prev
1593 : : there make sure that gsi points to the statement previous to
1594 : : cur_stmt while still making sure that all statements are
1595 : : considered in this basic block. */
1596 : 69615545 : gsi_prev (&gsi);
1597 : :
1598 : 69615545 : if (!is_gimple_assign (cur_stmt))
1599 : 69613259 : continue;
1600 : :
1601 : 19441110 : code = gimple_assign_rhs_code (cur_stmt);
1602 : 19441110 : switch (code)
1603 : : {
1604 : 5962 : case LROTATE_EXPR:
1605 : 5962 : case RROTATE_EXPR:
1606 : 5962 : if (!tree_fits_uhwi_p (gimple_assign_rhs2 (cur_stmt))
1607 : 5962 : || tree_to_uhwi (gimple_assign_rhs2 (cur_stmt))
1608 : 3568 : % BITS_PER_UNIT)
1609 : 5228 : continue;
1610 : : /* Fall through. */
1611 : : case BIT_IOR_EXPR:
1612 : : case BIT_XOR_EXPR:
1613 : : case PLUS_EXPR:
1614 : : break;
1615 : 1362944 : case CONSTRUCTOR:
1616 : 1362944 : {
1617 : 1362944 : tree rhs = gimple_assign_rhs1 (cur_stmt);
1618 : 1362944 : if (VECTOR_TYPE_P (TREE_TYPE (rhs))
1619 : 1362944 : && INTEGRAL_TYPE_P (TREE_TYPE (TREE_TYPE (rhs))))
1620 : : break;
1621 : : }
1622 : 1359128 : continue;
1623 : 16133816 : default:
1624 : 16133816 : continue;
1625 : 17492944 : }
1626 : :
1627 : 1942938 : ins_stmt = find_bswap_or_nop (cur_stmt, &n, &bswap,
1628 : : &cast64_to_32, &mask, &l_rotate);
1629 : :
1630 : 1942938 : if (!ins_stmt)
1631 : 1938695 : continue;
1632 : :
1633 : 4243 : switch (n.range)
1634 : : {
1635 : 826 : case 16:
1636 : : /* Already in canonical form, nothing to do. */
1637 : 826 : if (code == LROTATE_EXPR || code == RROTATE_EXPR)
1638 : 332 : continue;
1639 : 494 : load_type = bswap_type = uint16_type_node;
1640 : 494 : break;
1641 : 1212 : case 32:
1642 : 1212 : load_type = uint32_type_node;
1643 : 1212 : if (bswap32_p)
1644 : : {
1645 : 1212 : fndecl = builtin_decl_explicit (BUILT_IN_BSWAP32);
1646 : 1212 : bswap_type = bswap32_type;
1647 : : }
1648 : : break;
1649 : 580 : case 64:
1650 : 580 : load_type = uint64_type_node;
1651 : 580 : if (bswap64_p)
1652 : : {
1653 : 580 : fndecl = builtin_decl_explicit (BUILT_IN_BSWAP64);
1654 : 580 : bswap_type = bswap64_type;
1655 : : }
1656 : : break;
1657 : 1625 : default:
1658 : 1625 : continue;
1659 : : }
1660 : :
1661 : 2286 : if (bswap && !fndecl && n.range != 16)
1662 : 0 : continue;
1663 : :
1664 : 2286 : if (bswap_replace (gsi_for_stmt (cur_stmt), ins_stmt, fndecl,
1665 : : bswap_type, load_type, &n, bswap, mask,
1666 : : l_rotate))
1667 : 2286 : changed = true;
1668 : : }
1669 : : }
1670 : :
1671 : 924249 : statistics_counter_event (fun, "16-bit nop implementations found",
1672 : : nop_stats.found_16bit);
1673 : 924249 : statistics_counter_event (fun, "32-bit nop implementations found",
1674 : : nop_stats.found_32bit);
1675 : 924249 : statistics_counter_event (fun, "64-bit nop implementations found",
1676 : : nop_stats.found_64bit);
1677 : 924249 : statistics_counter_event (fun, "16-bit bswap implementations found",
1678 : : bswap_stats.found_16bit);
1679 : 924249 : statistics_counter_event (fun, "32-bit bswap implementations found",
1680 : : bswap_stats.found_32bit);
1681 : 924249 : statistics_counter_event (fun, "64-bit bswap implementations found",
1682 : : bswap_stats.found_64bit);
1683 : :
1684 : 924249 : return (changed ? TODO_update_ssa : 0);
1685 : : }
1686 : :
1687 : : } // anon namespace
1688 : :
1689 : : gimple_opt_pass *
1690 : 280114 : make_pass_optimize_bswap (gcc::context *ctxt)
1691 : : {
1692 : 280114 : return new pass_optimize_bswap (ctxt);
1693 : : }
1694 : :
1695 : : namespace {
1696 : :
1697 : : /* Struct recording one operand for the store, which is either a constant,
1698 : : then VAL represents the constant and all the other fields are zero, or
1699 : : a memory load, then VAL represents the reference, BASE_ADDR is non-NULL
1700 : : and the other fields also reflect the memory load, or an SSA name, then
1701 : : VAL represents the SSA name and all the other fields are zero. */
1702 : :
1703 : : class store_operand_info
1704 : : {
1705 : : public:
1706 : : tree val;
1707 : : tree base_addr;
1708 : : poly_uint64 bitsize;
1709 : : poly_uint64 bitpos;
1710 : : poly_uint64 bitregion_start;
1711 : : poly_uint64 bitregion_end;
1712 : : gimple *stmt;
1713 : : bool bit_not_p;
1714 : : store_operand_info ();
1715 : : };
1716 : :
1717 : 9787176 : store_operand_info::store_operand_info ()
1718 : 9787176 : : val (NULL_TREE), base_addr (NULL_TREE), bitsize (0), bitpos (0),
1719 : 9787176 : bitregion_start (0), bitregion_end (0), stmt (NULL), bit_not_p (false)
1720 : : {
1721 : 0 : }
1722 : :
1723 : : /* Struct recording the information about a single store of an immediate
1724 : : to memory. These are created in the first phase and coalesced into
1725 : : merged_store_group objects in the second phase. */
1726 : :
1727 : : class store_immediate_info
1728 : : {
1729 : : public:
1730 : : unsigned HOST_WIDE_INT bitsize;
1731 : : unsigned HOST_WIDE_INT bitpos;
1732 : : unsigned HOST_WIDE_INT bitregion_start;
1733 : : /* This is one past the last bit of the bit region. */
1734 : : unsigned HOST_WIDE_INT bitregion_end;
1735 : : gimple *stmt;
1736 : : unsigned int order;
1737 : : /* INTEGER_CST for constant store, STRING_CST for string store,
1738 : : MEM_REF for memory copy, BIT_*_EXPR for logical bitwise operation,
1739 : : BIT_INSERT_EXPR for bit insertion.
1740 : : LROTATE_EXPR if it can be only bswap optimized and
1741 : : ops are not really meaningful.
1742 : : NOP_EXPR if bswap optimization detected identity, ops
1743 : : are not meaningful. */
1744 : : enum tree_code rhs_code;
1745 : : /* Two fields for bswap optimization purposes. */
1746 : : struct symbolic_number n;
1747 : : gimple *ins_stmt;
1748 : : /* True if BIT_{AND,IOR,XOR}_EXPR result is inverted before storing. */
1749 : : bool bit_not_p;
1750 : : /* True if ops have been swapped and thus ops[1] represents
1751 : : rhs1 of BIT_{AND,IOR,XOR}_EXPR and ops[0] represents rhs2. */
1752 : : bool ops_swapped_p;
1753 : : /* The index number of the landing pad, or 0 if there is none. */
1754 : : int lp_nr;
1755 : : /* Operands. For BIT_*_EXPR rhs_code both operands are used, otherwise
1756 : : just the first one. */
1757 : : store_operand_info ops[2];
1758 : : store_immediate_info (unsigned HOST_WIDE_INT, unsigned HOST_WIDE_INT,
1759 : : unsigned HOST_WIDE_INT, unsigned HOST_WIDE_INT,
1760 : : gimple *, unsigned int, enum tree_code,
1761 : : struct symbolic_number &, gimple *, bool, int,
1762 : : const store_operand_info &,
1763 : : const store_operand_info &);
1764 : : };
1765 : :
1766 : 3050587 : store_immediate_info::store_immediate_info (unsigned HOST_WIDE_INT bs,
1767 : : unsigned HOST_WIDE_INT bp,
1768 : : unsigned HOST_WIDE_INT brs,
1769 : : unsigned HOST_WIDE_INT bre,
1770 : : gimple *st,
1771 : : unsigned int ord,
1772 : : enum tree_code rhscode,
1773 : : struct symbolic_number &nr,
1774 : : gimple *ins_stmtp,
1775 : : bool bitnotp,
1776 : : int nr2,
1777 : : const store_operand_info &op0r,
1778 : 3050587 : const store_operand_info &op1r)
1779 : 3050587 : : bitsize (bs), bitpos (bp), bitregion_start (brs), bitregion_end (bre),
1780 : 3050587 : stmt (st), order (ord), rhs_code (rhscode), n (nr),
1781 : 3050587 : ins_stmt (ins_stmtp), bit_not_p (bitnotp), ops_swapped_p (false),
1782 : 3050587 : lp_nr (nr2), ops { op0r, op1r }
1783 : : {
1784 : 0 : }
1785 : :
1786 : : /* Struct representing a group of stores to contiguous memory locations.
1787 : : These are produced by the second phase (coalescing) and consumed in the
1788 : : third phase that outputs the widened stores. */
1789 : :
1790 : : class merged_store_group
1791 : : {
1792 : : public:
1793 : : unsigned HOST_WIDE_INT start;
1794 : : unsigned HOST_WIDE_INT width;
1795 : : unsigned HOST_WIDE_INT bitregion_start;
1796 : : unsigned HOST_WIDE_INT bitregion_end;
1797 : : /* The size of the allocated memory for val and mask. */
1798 : : unsigned HOST_WIDE_INT buf_size;
1799 : : unsigned HOST_WIDE_INT align_base;
1800 : : poly_uint64 load_align_base[2];
1801 : :
1802 : : unsigned int align;
1803 : : unsigned int load_align[2];
1804 : : unsigned int first_order;
1805 : : unsigned int last_order;
1806 : : bool bit_insertion;
1807 : : bool string_concatenation;
1808 : : bool only_constants;
1809 : : bool consecutive;
1810 : : unsigned int first_nonmergeable_order;
1811 : : int lp_nr;
1812 : :
1813 : : auto_vec<store_immediate_info *> stores;
1814 : : /* We record the first and last original statements in the sequence because
1815 : : we'll need their vuse/vdef and replacement position. It's easier to keep
1816 : : track of them separately as 'stores' is reordered by apply_stores. */
1817 : : gimple *last_stmt;
1818 : : gimple *first_stmt;
1819 : : unsigned char *val;
1820 : : unsigned char *mask;
1821 : :
1822 : : merged_store_group (store_immediate_info *);
1823 : : ~merged_store_group ();
1824 : : bool can_be_merged_into (store_immediate_info *);
1825 : : void merge_into (store_immediate_info *);
1826 : : void merge_overlapping (store_immediate_info *);
1827 : : bool apply_stores ();
1828 : : private:
1829 : : void do_merge (store_immediate_info *);
1830 : : };
1831 : :
1832 : : /* Debug helper. Dump LEN elements of byte array PTR to FD in hex. */
1833 : :
1834 : : static void
1835 : 446 : dump_char_array (FILE *fd, unsigned char *ptr, unsigned int len)
1836 : : {
1837 : 446 : if (!fd)
1838 : : return;
1839 : :
1840 : 22302 : for (unsigned int i = 0; i < len; i++)
1841 : 21856 : fprintf (fd, "%02x ", ptr[i]);
1842 : 446 : fprintf (fd, "\n");
1843 : : }
1844 : :
1845 : : /* Clear out LEN bits starting from bit START in the byte array
1846 : : PTR. This clears the bits to the *right* from START.
1847 : : START must be within [0, BITS_PER_UNIT) and counts starting from
1848 : : the least significant bit. */
1849 : :
1850 : : static void
1851 : 12 : clear_bit_region_be (unsigned char *ptr, unsigned int start,
1852 : : unsigned int len)
1853 : : {
1854 : 20 : if (len == 0)
1855 : : return;
1856 : : /* Clear len bits to the right of start. */
1857 : 20 : else if (len <= start + 1)
1858 : : {
1859 : 8 : unsigned char mask = (~(~0U << len));
1860 : 8 : mask = mask << (start + 1U - len);
1861 : 8 : ptr[0] &= ~mask;
1862 : : }
1863 : 12 : else if (start != BITS_PER_UNIT - 1)
1864 : : {
1865 : 4 : clear_bit_region_be (ptr, start, (start % BITS_PER_UNIT) + 1);
1866 : 4 : clear_bit_region_be (ptr + 1, BITS_PER_UNIT - 1,
1867 : 4 : len - (start % BITS_PER_UNIT) - 1);
1868 : : }
1869 : 8 : else if (start == BITS_PER_UNIT - 1
1870 : : && len > BITS_PER_UNIT)
1871 : : {
1872 : 8 : unsigned int nbytes = len / BITS_PER_UNIT;
1873 : 8 : memset (ptr, 0, nbytes);
1874 : 8 : if (len % BITS_PER_UNIT != 0)
1875 : 4 : clear_bit_region_be (ptr + nbytes, BITS_PER_UNIT - 1,
1876 : : len % BITS_PER_UNIT);
1877 : : }
1878 : : else
1879 : 0 : gcc_unreachable ();
1880 : : }
1881 : :
1882 : : /* In the byte array PTR clear the bit region starting at bit
1883 : : START and is LEN bits wide.
1884 : : For regions spanning multiple bytes do this recursively until we reach
1885 : : zero LEN or a region contained within a single byte. */
1886 : :
1887 : : static void
1888 : 1377631 : clear_bit_region (unsigned char *ptr, unsigned int start,
1889 : : unsigned int len)
1890 : : {
1891 : : /* Degenerate base case. */
1892 : 1447260 : if (len == 0)
1893 : : return;
1894 : 1447260 : else if (start >= BITS_PER_UNIT)
1895 : 32984 : clear_bit_region (ptr + 1, start - BITS_PER_UNIT, len);
1896 : : /* Second base case. */
1897 : 1414276 : else if ((start + len) <= BITS_PER_UNIT)
1898 : : {
1899 : 174383 : unsigned char mask = (~0U) << (unsigned char) (BITS_PER_UNIT - len);
1900 : 174383 : mask >>= BITS_PER_UNIT - (start + len);
1901 : :
1902 : 174383 : ptr[0] &= ~mask;
1903 : :
1904 : 174383 : return;
1905 : : }
1906 : : /* Clear most significant bits in a byte and proceed with the next byte. */
1907 : 1239893 : else if (start != 0)
1908 : : {
1909 : 33842 : clear_bit_region (ptr, start, BITS_PER_UNIT - start);
1910 : 33842 : clear_bit_region (ptr + 1, 0, len - (BITS_PER_UNIT - start));
1911 : : }
1912 : : /* Whole bytes need to be cleared. */
1913 : 1206051 : else if (start == 0 && len > BITS_PER_UNIT)
1914 : : {
1915 : 1206051 : unsigned int nbytes = len / BITS_PER_UNIT;
1916 : : /* We could recurse on each byte but we clear whole bytes, so a simple
1917 : : memset will do. */
1918 : 1206051 : memset (ptr, '\0', nbytes);
1919 : : /* Clear the remaining sub-byte region if there is one. */
1920 : 1206051 : if (len % BITS_PER_UNIT != 0)
1921 : 2803 : clear_bit_region (ptr + nbytes, 0, len % BITS_PER_UNIT);
1922 : : }
1923 : : else
1924 : 0 : gcc_unreachable ();
1925 : : }
1926 : :
1927 : : /* Write BITLEN bits of EXPR to the byte array PTR at
1928 : : bit position BITPOS. PTR should contain TOTAL_BYTES elements.
1929 : : Return true if the operation succeeded. */
1930 : :
1931 : : static bool
1932 : 1099637 : encode_tree_to_bitpos (tree expr, unsigned char *ptr, int bitlen, int bitpos,
1933 : : unsigned int total_bytes)
1934 : : {
1935 : 1099637 : unsigned int first_byte = bitpos / BITS_PER_UNIT;
1936 : 1099637 : bool empty_ctor_p
1937 : 1099637 : = (TREE_CODE (expr) == CONSTRUCTOR
1938 : 377157 : && CONSTRUCTOR_NELTS (expr) == 0
1939 : 377157 : && TYPE_SIZE_UNIT (TREE_TYPE (expr))
1940 : 1476794 : && tree_fits_uhwi_p (TYPE_SIZE_UNIT (TREE_TYPE (expr))));
1941 : 1099637 : bool sub_byte_op_p = ((bitlen % BITS_PER_UNIT)
1942 : 1081494 : || (bitpos % BITS_PER_UNIT)
1943 : 2180614 : || (!int_mode_for_size (bitlen, 0).exists ()
1944 : 109470 : && !empty_ctor_p));
1945 : :
1946 : 1080685 : if (!sub_byte_op_p)
1947 : : {
1948 : 1080685 : if (first_byte >= total_bytes)
1949 : : return false;
1950 : 1080685 : total_bytes -= first_byte;
1951 : 1080685 : if (empty_ctor_p)
1952 : : {
1953 : 377157 : unsigned HOST_WIDE_INT rhs_bytes
1954 : 377157 : = tree_to_uhwi (TYPE_SIZE_UNIT (TREE_TYPE (expr)));
1955 : 377157 : if (rhs_bytes > total_bytes)
1956 : : return false;
1957 : 377157 : memset (ptr + first_byte, '\0', rhs_bytes);
1958 : 377157 : return true;
1959 : : }
1960 : 703528 : return native_encode_expr (expr, ptr + first_byte, total_bytes) != 0;
1961 : : }
1962 : :
1963 : : /* LITTLE-ENDIAN
1964 : : We are writing a non byte-sized quantity or at a position that is not
1965 : : at a byte boundary.
1966 : : |--------|--------|--------| ptr + first_byte
1967 : : ^ ^
1968 : : xxx xxxxxxxx xxx< bp>
1969 : : |______EXPR____|
1970 : :
1971 : : First native_encode_expr EXPR into a temporary buffer and shift each
1972 : : byte in the buffer by 'bp' (carrying the bits over as necessary).
1973 : : |00000000|00xxxxxx|xxxxxxxx| << bp = |000xxxxx|xxxxxxxx|xxx00000|
1974 : : <------bitlen---->< bp>
1975 : : Then we clear the destination bits:
1976 : : |---00000|00000000|000-----| ptr + first_byte
1977 : : <-------bitlen--->< bp>
1978 : :
1979 : : Finally we ORR the bytes of the shifted EXPR into the cleared region:
1980 : : |---xxxxx||xxxxxxxx||xxx-----| ptr + first_byte.
1981 : :
1982 : : BIG-ENDIAN
1983 : : We are writing a non byte-sized quantity or at a position that is not
1984 : : at a byte boundary.
1985 : : ptr + first_byte |--------|--------|--------|
1986 : : ^ ^
1987 : : <bp >xxx xxxxxxxx xxx
1988 : : |_____EXPR_____|
1989 : :
1990 : : First native_encode_expr EXPR into a temporary buffer and shift each
1991 : : byte in the buffer to the right by (carrying the bits over as necessary).
1992 : : We shift by as much as needed to align the most significant bit of EXPR
1993 : : with bitpos:
1994 : : |00xxxxxx|xxxxxxxx| >> 3 = |00000xxx|xxxxxxxx|xxxxx000|
1995 : : <---bitlen----> <bp ><-----bitlen----->
1996 : : Then we clear the destination bits:
1997 : : ptr + first_byte |-----000||00000000||00000---|
1998 : : <bp ><-------bitlen----->
1999 : :
2000 : : Finally we ORR the bytes of the shifted EXPR into the cleared region:
2001 : : ptr + first_byte |---xxxxx||xxxxxxxx||xxx-----|.
2002 : : The awkwardness comes from the fact that bitpos is counted from the
2003 : : most significant bit of a byte. */
2004 : :
2005 : : /* We must be dealing with fixed-size data at this point, since the
2006 : : total size is also fixed. */
2007 : 18952 : unsigned int byte_size;
2008 : 18952 : if (empty_ctor_p)
2009 : : {
2010 : 0 : unsigned HOST_WIDE_INT rhs_bytes
2011 : 0 : = tree_to_uhwi (TYPE_SIZE_UNIT (TREE_TYPE (expr)));
2012 : 0 : if (rhs_bytes > total_bytes)
2013 : : return false;
2014 : 0 : byte_size = rhs_bytes;
2015 : : }
2016 : : else
2017 : : {
2018 : 18952 : fixed_size_mode mode
2019 : 18952 : = as_a <fixed_size_mode> (TYPE_MODE (TREE_TYPE (expr)));
2020 : 18952 : byte_size
2021 : 18952 : = mode == BLKmode
2022 : 198 : ? tree_to_uhwi (TYPE_SIZE_UNIT (TREE_TYPE (expr)))
2023 : 18754 : : GET_MODE_SIZE (mode);
2024 : : }
2025 : : /* Allocate an extra byte so that we have space to shift into. */
2026 : 18952 : byte_size++;
2027 : 18952 : unsigned char *tmpbuf = XALLOCAVEC (unsigned char, byte_size);
2028 : 18952 : memset (tmpbuf, '\0', byte_size);
2029 : : /* The store detection code should only have allowed constants that are
2030 : : accepted by native_encode_expr or empty ctors. */
2031 : 18952 : if (!empty_ctor_p
2032 : 18952 : && native_encode_expr (expr, tmpbuf, byte_size - 1) == 0)
2033 : 0 : gcc_unreachable ();
2034 : :
2035 : : /* The native_encode_expr machinery uses TYPE_MODE to determine how many
2036 : : bytes to write. This means it can write more than
2037 : : ROUND_UP (bitlen, BITS_PER_UNIT) / BITS_PER_UNIT bytes (for example
2038 : : write 8 bytes for a bitlen of 40). Skip the bytes that are not within
2039 : : bitlen and zero out the bits that are not relevant as well (that may
2040 : : contain a sign bit due to sign-extension). */
2041 : 18952 : unsigned int padding
2042 : 18952 : = byte_size - ROUND_UP (bitlen, BITS_PER_UNIT) / BITS_PER_UNIT - 1;
2043 : : /* On big-endian the padding is at the 'front' so just skip the initial
2044 : : bytes. */
2045 : 18952 : if (BYTES_BIG_ENDIAN)
2046 : : tmpbuf += padding;
2047 : :
2048 : 18952 : byte_size -= padding;
2049 : :
2050 : 18952 : if (bitlen % BITS_PER_UNIT != 0)
2051 : : {
2052 : 18143 : if (BYTES_BIG_ENDIAN)
2053 : : clear_bit_region_be (tmpbuf, BITS_PER_UNIT - 1,
2054 : : BITS_PER_UNIT - (bitlen % BITS_PER_UNIT));
2055 : : else
2056 : 18143 : clear_bit_region (tmpbuf, bitlen,
2057 : 18143 : byte_size * BITS_PER_UNIT - bitlen);
2058 : : }
2059 : : /* Left shifting relies on the last byte being clear if bitlen is
2060 : : a multiple of BITS_PER_UNIT, which might not be clear if
2061 : : there are padding bytes. */
2062 : 809 : else if (!BYTES_BIG_ENDIAN)
2063 : 809 : tmpbuf[byte_size - 1] = '\0';
2064 : :
2065 : : /* Clear the bit region in PTR where the bits from TMPBUF will be
2066 : : inserted into. */
2067 : 18952 : if (BYTES_BIG_ENDIAN)
2068 : : clear_bit_region_be (ptr + first_byte,
2069 : : BITS_PER_UNIT - 1 - (bitpos % BITS_PER_UNIT), bitlen);
2070 : : else
2071 : 18952 : clear_bit_region (ptr + first_byte, bitpos % BITS_PER_UNIT, bitlen);
2072 : :
2073 : 18952 : int shift_amnt;
2074 : 18952 : int bitlen_mod = bitlen % BITS_PER_UNIT;
2075 : 18952 : int bitpos_mod = bitpos % BITS_PER_UNIT;
2076 : :
2077 : 18952 : bool skip_byte = false;
2078 : 18952 : if (BYTES_BIG_ENDIAN)
2079 : : {
2080 : : /* BITPOS and BITLEN are exactly aligned and no shifting
2081 : : is necessary. */
2082 : : if (bitpos_mod + bitlen_mod == BITS_PER_UNIT
2083 : : || (bitpos_mod == 0 && bitlen_mod == 0))
2084 : : shift_amnt = 0;
2085 : : /* |. . . . . . . .|
2086 : : <bp > <blen >.
2087 : : We always shift right for BYTES_BIG_ENDIAN so shift the beginning
2088 : : of the value until it aligns with 'bp' in the next byte over. */
2089 : : else if (bitpos_mod + bitlen_mod < BITS_PER_UNIT)
2090 : : {
2091 : : shift_amnt = bitlen_mod + bitpos_mod;
2092 : : skip_byte = bitlen_mod != 0;
2093 : : }
2094 : : /* |. . . . . . . .|
2095 : : <----bp--->
2096 : : <---blen---->.
2097 : : Shift the value right within the same byte so it aligns with 'bp'. */
2098 : : else
2099 : : shift_amnt = bitlen_mod + bitpos_mod - BITS_PER_UNIT;
2100 : : }
2101 : : else
2102 : 18952 : shift_amnt = bitpos % BITS_PER_UNIT;
2103 : :
2104 : : /* Create the shifted version of EXPR. */
2105 : 18952 : if (!BYTES_BIG_ENDIAN)
2106 : : {
2107 : 18952 : shift_bytes_in_array_left (tmpbuf, byte_size, shift_amnt);
2108 : 18952 : if (shift_amnt == 0)
2109 : 8300 : byte_size--;
2110 : : }
2111 : : else
2112 : : {
2113 : : gcc_assert (BYTES_BIG_ENDIAN);
2114 : : shift_bytes_in_array_right (tmpbuf, byte_size, shift_amnt);
2115 : : /* If shifting right forced us to move into the next byte skip the now
2116 : : empty byte. */
2117 : : if (skip_byte)
2118 : : {
2119 : : tmpbuf++;
2120 : : byte_size--;
2121 : : }
2122 : : }
2123 : :
2124 : : /* Insert the bits from TMPBUF. */
2125 : 83529 : for (unsigned int i = 0; i < byte_size; i++)
2126 : 64577 : ptr[first_byte + i] |= tmpbuf[i];
2127 : :
2128 : : return true;
2129 : : }
2130 : :
2131 : : /* Sorting function for store_immediate_info objects.
2132 : : Sorts them by bitposition. */
2133 : :
2134 : : static int
2135 : 17960981 : sort_by_bitpos (const void *x, const void *y)
2136 : : {
2137 : 17960981 : store_immediate_info *const *tmp = (store_immediate_info * const *) x;
2138 : 17960981 : store_immediate_info *const *tmp2 = (store_immediate_info * const *) y;
2139 : :
2140 : 17960981 : if ((*tmp)->bitpos < (*tmp2)->bitpos)
2141 : : return -1;
2142 : 9718982 : else if ((*tmp)->bitpos > (*tmp2)->bitpos)
2143 : : return 1;
2144 : : else
2145 : : /* If they are the same let's use the order which is guaranteed to
2146 : : be different. */
2147 : 1644864 : return (*tmp)->order - (*tmp2)->order;
2148 : : }
2149 : :
2150 : : /* Sorting function for store_immediate_info objects.
2151 : : Sorts them by the order field. */
2152 : :
2153 : : static int
2154 : 7033100 : sort_by_order (const void *x, const void *y)
2155 : : {
2156 : 7033100 : store_immediate_info *const *tmp = (store_immediate_info * const *) x;
2157 : 7033100 : store_immediate_info *const *tmp2 = (store_immediate_info * const *) y;
2158 : :
2159 : 7033100 : if ((*tmp)->order < (*tmp2)->order)
2160 : : return -1;
2161 : 3446293 : else if ((*tmp)->order > (*tmp2)->order)
2162 : : return 1;
2163 : :
2164 : 0 : gcc_unreachable ();
2165 : : }
2166 : :
2167 : : /* Initialize a merged_store_group object from a store_immediate_info
2168 : : object. */
2169 : :
2170 : 870676 : merged_store_group::merged_store_group (store_immediate_info *info)
2171 : : {
2172 : 870676 : start = info->bitpos;
2173 : 870676 : width = info->bitsize;
2174 : 870676 : bitregion_start = info->bitregion_start;
2175 : 870676 : bitregion_end = info->bitregion_end;
2176 : : /* VAL has memory allocated for it in apply_stores once the group
2177 : : width has been finalized. */
2178 : 870676 : val = NULL;
2179 : 870676 : mask = NULL;
2180 : 870676 : bit_insertion = info->rhs_code == BIT_INSERT_EXPR;
2181 : 870676 : string_concatenation = info->rhs_code == STRING_CST;
2182 : 870676 : only_constants = info->rhs_code == INTEGER_CST;
2183 : 870676 : consecutive = true;
2184 : 870676 : first_nonmergeable_order = ~0U;
2185 : 870676 : lp_nr = info->lp_nr;
2186 : 870676 : unsigned HOST_WIDE_INT align_bitpos = 0;
2187 : 870676 : get_object_alignment_1 (gimple_assign_lhs (info->stmt),
2188 : : &align, &align_bitpos);
2189 : 870676 : align_base = start - align_bitpos;
2190 : 2612028 : for (int i = 0; i < 2; ++i)
2191 : : {
2192 : 1741352 : store_operand_info &op = info->ops[i];
2193 : 1741352 : if (op.base_addr == NULL_TREE)
2194 : : {
2195 : 1532470 : load_align[i] = 0;
2196 : 1532470 : load_align_base[i] = 0;
2197 : : }
2198 : : else
2199 : : {
2200 : 208882 : get_object_alignment_1 (op.val, &load_align[i], &align_bitpos);
2201 : 208882 : load_align_base[i] = op.bitpos - align_bitpos;
2202 : : }
2203 : : }
2204 : 870676 : stores.create (1);
2205 : 870676 : stores.safe_push (info);
2206 : 870676 : last_stmt = info->stmt;
2207 : 870676 : last_order = info->order;
2208 : 870676 : first_stmt = last_stmt;
2209 : 870676 : first_order = last_order;
2210 : 870676 : buf_size = 0;
2211 : 870676 : }
2212 : :
2213 : 870676 : merged_store_group::~merged_store_group ()
2214 : : {
2215 : 870676 : if (val)
2216 : 450801 : XDELETEVEC (val);
2217 : 870676 : }
2218 : :
2219 : : /* Return true if the store described by INFO can be merged into the group. */
2220 : :
2221 : : bool
2222 : 643592 : merged_store_group::can_be_merged_into (store_immediate_info *info)
2223 : : {
2224 : : /* Do not merge bswap patterns. */
2225 : 643592 : if (info->rhs_code == LROTATE_EXPR)
2226 : : return false;
2227 : :
2228 : 630789 : if (info->lp_nr != lp_nr)
2229 : : return false;
2230 : :
2231 : : /* The canonical case. */
2232 : 630775 : if (info->rhs_code == stores[0]->rhs_code)
2233 : : return true;
2234 : :
2235 : : /* BIT_INSERT_EXPR is compatible with INTEGER_CST if no STRING_CST. */
2236 : 46048 : if (info->rhs_code == BIT_INSERT_EXPR && stores[0]->rhs_code == INTEGER_CST)
2237 : 2025 : return !string_concatenation;
2238 : :
2239 : 44023 : if (stores[0]->rhs_code == BIT_INSERT_EXPR && info->rhs_code == INTEGER_CST)
2240 : 1504 : return !string_concatenation;
2241 : :
2242 : : /* We can turn MEM_REF into BIT_INSERT_EXPR for bit-field stores, but do it
2243 : : only for small regions since this can generate a lot of instructions. */
2244 : 42519 : if (info->rhs_code == MEM_REF
2245 : 16028 : && (stores[0]->rhs_code == INTEGER_CST
2246 : 522 : || stores[0]->rhs_code == BIT_INSERT_EXPR)
2247 : 15813 : && info->bitregion_start == stores[0]->bitregion_start
2248 : 618 : && info->bitregion_end == stores[0]->bitregion_end
2249 : 43755 : && info->bitregion_end - info->bitregion_start <= MAX_FIXED_MODE_SIZE)
2250 : 616 : return !string_concatenation;
2251 : :
2252 : 41903 : if (stores[0]->rhs_code == MEM_REF
2253 : 20557 : && (info->rhs_code == INTEGER_CST
2254 : 20557 : || info->rhs_code == BIT_INSERT_EXPR)
2255 : 20340 : && info->bitregion_start == stores[0]->bitregion_start
2256 : 4 : && info->bitregion_end == stores[0]->bitregion_end
2257 : 41907 : && info->bitregion_end - info->bitregion_start <= MAX_FIXED_MODE_SIZE)
2258 : 2 : return !string_concatenation;
2259 : :
2260 : : /* STRING_CST is compatible with INTEGER_CST if no BIT_INSERT_EXPR. */
2261 : 41901 : if (info->rhs_code == STRING_CST
2262 : 125 : && stores[0]->rhs_code == INTEGER_CST
2263 : 42026 : && stores[0]->bitsize == CHAR_BIT)
2264 : 65 : return !bit_insertion;
2265 : :
2266 : 41836 : if (stores[0]->rhs_code == STRING_CST
2267 : 150 : && info->rhs_code == INTEGER_CST
2268 : 41986 : && info->bitsize == CHAR_BIT)
2269 : 14 : return !bit_insertion;
2270 : :
2271 : : return false;
2272 : : }
2273 : :
2274 : : /* Helper method for merge_into and merge_overlapping to do
2275 : : the common part. */
2276 : :
2277 : : void
2278 : 857297 : merged_store_group::do_merge (store_immediate_info *info)
2279 : : {
2280 : 857297 : bitregion_start = MIN (bitregion_start, info->bitregion_start);
2281 : 857297 : bitregion_end = MAX (bitregion_end, info->bitregion_end);
2282 : :
2283 : 857297 : unsigned int this_align;
2284 : 857297 : unsigned HOST_WIDE_INT align_bitpos = 0;
2285 : 857297 : get_object_alignment_1 (gimple_assign_lhs (info->stmt),
2286 : : &this_align, &align_bitpos);
2287 : 857297 : if (this_align > align)
2288 : : {
2289 : 460 : align = this_align;
2290 : 460 : align_base = info->bitpos - align_bitpos;
2291 : : }
2292 : 2571891 : for (int i = 0; i < 2; ++i)
2293 : : {
2294 : 1714594 : store_operand_info &op = info->ops[i];
2295 : 1714594 : if (!op.base_addr)
2296 : 1602692 : continue;
2297 : :
2298 : 111902 : get_object_alignment_1 (op.val, &this_align, &align_bitpos);
2299 : 111902 : if (this_align > load_align[i])
2300 : : {
2301 : 18 : load_align[i] = this_align;
2302 : 18 : load_align_base[i] = op.bitpos - align_bitpos;
2303 : : }
2304 : : }
2305 : :
2306 : 857297 : gimple *stmt = info->stmt;
2307 : 857297 : stores.safe_push (info);
2308 : 857297 : if (info->order > last_order)
2309 : : {
2310 : 627703 : last_order = info->order;
2311 : 627703 : last_stmt = stmt;
2312 : : }
2313 : 229594 : else if (info->order < first_order)
2314 : : {
2315 : 86216 : first_order = info->order;
2316 : 86216 : first_stmt = stmt;
2317 : : }
2318 : :
2319 : 857297 : if (info->bitpos != start + width)
2320 : 298575 : consecutive = false;
2321 : :
2322 : : /* We need to use extraction if there is any bit-field. */
2323 : 857297 : if (info->rhs_code == BIT_INSERT_EXPR)
2324 : : {
2325 : 7118 : bit_insertion = true;
2326 : 7118 : gcc_assert (!string_concatenation);
2327 : : }
2328 : :
2329 : : /* We want to use concatenation if there is any string. */
2330 : 857297 : if (info->rhs_code == STRING_CST)
2331 : : {
2332 : 457 : string_concatenation = true;
2333 : 457 : gcc_assert (!bit_insertion);
2334 : : }
2335 : :
2336 : : /* But we cannot use it if we don't have consecutive stores. */
2337 : 857297 : if (!consecutive)
2338 : 410372 : string_concatenation = false;
2339 : :
2340 : 857297 : if (info->rhs_code != INTEGER_CST)
2341 : 119254 : only_constants = false;
2342 : 857297 : }
2343 : :
2344 : : /* Merge a store recorded by INFO into this merged store.
2345 : : The store is not overlapping with the existing recorded
2346 : : stores. */
2347 : :
2348 : : void
2349 : 120972 : merged_store_group::merge_into (store_immediate_info *info)
2350 : : {
2351 : 120972 : do_merge (info);
2352 : :
2353 : : /* Make sure we're inserting in the position we think we're inserting. */
2354 : 120972 : gcc_assert (info->bitpos >= start + width
2355 : : && info->bitregion_start <= bitregion_end);
2356 : :
2357 : 120972 : width = info->bitpos + info->bitsize - start;
2358 : 120972 : }
2359 : :
2360 : : /* Merge a store described by INFO into this merged store.
2361 : : INFO overlaps in some way with the current store (i.e. it's not contiguous
2362 : : which is handled by merged_store_group::merge_into). */
2363 : :
2364 : : void
2365 : 736325 : merged_store_group::merge_overlapping (store_immediate_info *info)
2366 : : {
2367 : 736325 : do_merge (info);
2368 : :
2369 : : /* If the store extends the size of the group, extend the width. */
2370 : 736325 : if (info->bitpos + info->bitsize > start + width)
2371 : 440720 : width = info->bitpos + info->bitsize - start;
2372 : 736325 : }
2373 : :
2374 : : /* Go through all the recorded stores in this group in program order and
2375 : : apply their values to the VAL byte array to create the final merged
2376 : : value. Return true if the operation succeeded. */
2377 : :
2378 : : bool
2379 : 870069 : merged_store_group::apply_stores ()
2380 : : {
2381 : 870069 : store_immediate_info *info;
2382 : 870069 : unsigned int i;
2383 : :
2384 : : /* Make sure we have more than one store in the group, otherwise we cannot
2385 : : merge anything. */
2386 : 870069 : if (bitregion_start % BITS_PER_UNIT != 0
2387 : 870069 : || bitregion_end % BITS_PER_UNIT != 0
2388 : 1740138 : || stores.length () == 1)
2389 : : return false;
2390 : :
2391 : 450801 : buf_size = (bitregion_end - bitregion_start) / BITS_PER_UNIT;
2392 : :
2393 : : /* Really do string concatenation for large strings only. */
2394 : 450801 : if (buf_size <= MOVE_MAX)
2395 : 201782 : string_concatenation = false;
2396 : :
2397 : : /* String concatenation only works for byte aligned start and end. */
2398 : 450801 : if (start % BITS_PER_UNIT != 0 || width % BITS_PER_UNIT != 0)
2399 : 2931 : string_concatenation = false;
2400 : :
2401 : : /* Create a power-of-2-sized buffer for native_encode_expr. */
2402 : 450801 : if (!string_concatenation)
2403 : 901468 : buf_size = 1 << ceil_log2 (buf_size);
2404 : :
2405 : 450801 : val = XNEWVEC (unsigned char, 2 * buf_size);
2406 : 450801 : mask = val + buf_size;
2407 : 450801 : memset (val, 0, buf_size);
2408 : 450801 : memset (mask, ~0U, buf_size);
2409 : :
2410 : 450801 : stores.qsort (sort_by_order);
2411 : :
2412 : 1757460 : FOR_EACH_VEC_ELT (stores, i, info)
2413 : : {
2414 : 1306659 : unsigned int pos_in_buffer = info->bitpos - bitregion_start;
2415 : 1306659 : tree cst;
2416 : 1306659 : if (info->ops[0].val && info->ops[0].base_addr == NULL_TREE)
2417 : : cst = info->ops[0].val;
2418 : 197366 : else if (info->ops[1].val && info->ops[1].base_addr == NULL_TREE)
2419 : : cst = info->ops[1].val;
2420 : : else
2421 : : cst = NULL_TREE;
2422 : 1109623 : bool ret = true;
2423 : 1109623 : if (cst && info->rhs_code != BIT_INSERT_EXPR)
2424 : 1099637 : ret = encode_tree_to_bitpos (cst, val, info->bitsize, pos_in_buffer,
2425 : 1099637 : buf_size);
2426 : 1306659 : unsigned char *m = mask + (pos_in_buffer / BITS_PER_UNIT);
2427 : 1306659 : if (BYTES_BIG_ENDIAN)
2428 : : clear_bit_region_be (m, (BITS_PER_UNIT - 1
2429 : : - (pos_in_buffer % BITS_PER_UNIT)),
2430 : : info->bitsize);
2431 : : else
2432 : 1306659 : clear_bit_region (m, pos_in_buffer % BITS_PER_UNIT, info->bitsize);
2433 : 1306659 : if (cst && dump_file && (dump_flags & TDF_DETAILS))
2434 : : {
2435 : 223 : if (ret)
2436 : : {
2437 : 223 : fputs ("After writing ", dump_file);
2438 : 223 : print_generic_expr (dump_file, cst, TDF_NONE);
2439 : 223 : fprintf (dump_file, " of size " HOST_WIDE_INT_PRINT_DEC
2440 : : " at position %d\n", info->bitsize, pos_in_buffer);
2441 : 223 : fputs (" the merged value contains ", dump_file);
2442 : 223 : dump_char_array (dump_file, val, buf_size);
2443 : 223 : fputs (" the merged mask contains ", dump_file);
2444 : 223 : dump_char_array (dump_file, mask, buf_size);
2445 : 223 : if (bit_insertion)
2446 : 0 : fputs (" bit insertion is required\n", dump_file);
2447 : 223 : if (string_concatenation)
2448 : 0 : fputs (" string concatenation is required\n", dump_file);
2449 : : }
2450 : : else
2451 : 0 : fprintf (dump_file, "Failed to merge stores\n");
2452 : : }
2453 : 1306659 : if (!ret)
2454 : : return false;
2455 : : }
2456 : 450801 : stores.qsort (sort_by_bitpos);
2457 : : return true;
2458 : : }
2459 : :
2460 : : /* Structure describing the store chain. */
2461 : :
2462 : : class imm_store_chain_info
2463 : : {
2464 : : public:
2465 : : /* Doubly-linked list that imposes an order on chain processing.
2466 : : PNXP (prev's next pointer) points to the head of a list, or to
2467 : : the next field in the previous chain in the list.
2468 : : See pass_store_merging::m_stores_head for more rationale. */
2469 : : imm_store_chain_info *next, **pnxp;
2470 : : tree base_addr;
2471 : : auto_vec<store_immediate_info *> m_store_info;
2472 : : auto_vec<merged_store_group *> m_merged_store_groups;
2473 : :
2474 : 1862062 : imm_store_chain_info (imm_store_chain_info *&inspt, tree b_a)
2475 : 1862062 : : next (inspt), pnxp (&inspt), base_addr (b_a)
2476 : : {
2477 : 1862062 : inspt = this;
2478 : 1862062 : if (next)
2479 : : {
2480 : 613610 : gcc_checking_assert (pnxp == next->pnxp);
2481 : 613610 : next->pnxp = &next;
2482 : : }
2483 : 1862062 : }
2484 : 1862062 : ~imm_store_chain_info ()
2485 : : {
2486 : 1862062 : *pnxp = next;
2487 : 1862062 : if (next)
2488 : : {
2489 : 589485 : gcc_checking_assert (&next == next->pnxp);
2490 : 589485 : next->pnxp = pnxp;
2491 : : }
2492 : 1862062 : }
2493 : : bool terminate_and_process_chain ();
2494 : : bool try_coalesce_bswap (merged_store_group *, unsigned int, unsigned int,
2495 : : unsigned int);
2496 : : bool coalesce_immediate_stores ();
2497 : : bool output_merged_store (merged_store_group *);
2498 : : bool output_merged_stores ();
2499 : : };
2500 : :
2501 : : const pass_data pass_data_tree_store_merging = {
2502 : : GIMPLE_PASS, /* type */
2503 : : "store-merging", /* name */
2504 : : OPTGROUP_NONE, /* optinfo_flags */
2505 : : TV_GIMPLE_STORE_MERGING, /* tv_id */
2506 : : PROP_ssa, /* properties_required */
2507 : : 0, /* properties_provided */
2508 : : 0, /* properties_destroyed */
2509 : : 0, /* todo_flags_start */
2510 : : TODO_update_ssa, /* todo_flags_finish */
2511 : : };
2512 : :
2513 : : class pass_store_merging : public gimple_opt_pass
2514 : : {
2515 : : public:
2516 : 280114 : pass_store_merging (gcc::context *ctxt)
2517 : 560228 : : gimple_opt_pass (pass_data_tree_store_merging, ctxt), m_stores_head (),
2518 : 280114 : m_n_chains (0), m_n_stores (0)
2519 : : {
2520 : 280114 : }
2521 : :
2522 : : /* Pass not supported for PDP-endian, nor for insane hosts or
2523 : : target character sizes where native_{encode,interpret}_expr
2524 : : doesn't work properly. */
2525 : : bool
2526 : 996137 : gate (function *) final override
2527 : : {
2528 : 996137 : return flag_store_merging
2529 : : && BYTES_BIG_ENDIAN == WORDS_BIG_ENDIAN
2530 : : && CHAR_BIT == 8
2531 : 996137 : && BITS_PER_UNIT == 8;
2532 : : }
2533 : :
2534 : : unsigned int execute (function *) final override;
2535 : :
2536 : : private:
2537 : : hash_map<tree_operand_hash, class imm_store_chain_info *> m_stores;
2538 : :
2539 : : /* Form a doubly-linked stack of the elements of m_stores, so that
2540 : : we can iterate over them in a predictable way. Using this order
2541 : : avoids extraneous differences in the compiler output just because
2542 : : of tree pointer variations (e.g. different chains end up in
2543 : : different positions of m_stores, so they are handled in different
2544 : : orders, so they allocate or release SSA names in different
2545 : : orders, and when they get reused, subsequent passes end up
2546 : : getting different SSA names, which may ultimately change
2547 : : decisions when going out of SSA). */
2548 : : imm_store_chain_info *m_stores_head;
2549 : :
2550 : : /* The number of store chains currently tracked. */
2551 : : unsigned m_n_chains;
2552 : : /* The number of stores currently tracked. */
2553 : : unsigned m_n_stores;
2554 : :
2555 : : bool process_store (gimple *);
2556 : : bool terminate_and_process_chain (imm_store_chain_info *);
2557 : : bool terminate_all_aliasing_chains (imm_store_chain_info **, gimple *);
2558 : : bool terminate_and_process_all_chains ();
2559 : : }; // class pass_store_merging
2560 : :
2561 : : /* Terminate and process all recorded chains. Return true if any changes
2562 : : were made. */
2563 : :
2564 : : bool
2565 : 1092164 : pass_store_merging::terminate_and_process_all_chains ()
2566 : : {
2567 : 1092164 : bool ret = false;
2568 : 1936155 : while (m_stores_head)
2569 : 843991 : ret |= terminate_and_process_chain (m_stores_head);
2570 : 1092164 : gcc_assert (m_stores.is_empty ());
2571 : 1092164 : return ret;
2572 : : }
2573 : :
2574 : : /* Terminate all chains that are affected by the statement STMT.
2575 : : CHAIN_INFO is the chain we should ignore from the checks if
2576 : : non-NULL. Return true if any changes were made. */
2577 : :
2578 : : bool
2579 : 9503915 : pass_store_merging::terminate_all_aliasing_chains (imm_store_chain_info
2580 : : **chain_info,
2581 : : gimple *stmt)
2582 : : {
2583 : 9503915 : bool ret = false;
2584 : :
2585 : : /* If the statement doesn't touch memory it can't alias. */
2586 : 18587863 : if (!gimple_vuse (stmt))
2587 : : return false;
2588 : :
2589 : 7603151 : tree store_lhs = gimple_store_p (stmt) ? gimple_get_lhs (stmt) : NULL_TREE;
2590 : 7603151 : ao_ref store_lhs_ref;
2591 : 7603151 : ao_ref_init (&store_lhs_ref, store_lhs);
2592 : 7603151 : for (imm_store_chain_info *next = m_stores_head, *cur = next; cur; cur = next)
2593 : : {
2594 : 7988470 : next = cur->next;
2595 : :
2596 : : /* We already checked all the stores in chain_info and terminated the
2597 : : chain if necessary. Skip it here. */
2598 : 7988470 : if (chain_info && *chain_info == cur)
2599 : 1188525 : continue;
2600 : :
2601 : : store_immediate_info *info;
2602 : : unsigned int i;
2603 : 32330126 : FOR_EACH_VEC_ELT (cur->m_store_info, i, info)
2604 : : {
2605 : 10954795 : tree lhs = gimple_assign_lhs (info->stmt);
2606 : 10954795 : ao_ref lhs_ref;
2607 : 10954795 : ao_ref_init (&lhs_ref, lhs);
2608 : 10954795 : if (ref_maybe_used_by_stmt_p (stmt, &lhs_ref)
2609 : 10160146 : || stmt_may_clobber_ref_p_1 (stmt, &lhs_ref)
2610 : 20923393 : || (store_lhs && refs_may_alias_p_1 (&store_lhs_ref,
2611 : : &lhs_ref, false)))
2612 : : {
2613 : 1016235 : if (dump_file && (dump_flags & TDF_DETAILS))
2614 : : {
2615 : 24 : fprintf (dump_file, "stmt causes chain termination:\n");
2616 : 24 : print_gimple_stmt (dump_file, stmt, 0);
2617 : : }
2618 : 1016235 : ret |= terminate_and_process_chain (cur);
2619 : 1016235 : break;
2620 : : }
2621 : : }
2622 : : }
2623 : :
2624 : : return ret;
2625 : : }
2626 : :
2627 : : /* Helper function. Terminate the recorded chain storing to base object
2628 : : BASE. Return true if the merging and output was successful. The m_stores
2629 : : entry is removed after the processing in any case. */
2630 : :
2631 : : bool
2632 : 1862062 : pass_store_merging::terminate_and_process_chain (imm_store_chain_info *chain_info)
2633 : : {
2634 : 1862062 : m_n_stores -= chain_info->m_store_info.length ();
2635 : 1862062 : m_n_chains--;
2636 : 1862062 : bool ret = chain_info->terminate_and_process_chain ();
2637 : 1862062 : m_stores.remove (chain_info->base_addr);
2638 : 1862062 : delete chain_info;
2639 : 1862062 : return ret;
2640 : : }
2641 : :
2642 : : /* Return true if stmts in between FIRST (inclusive) and LAST (exclusive)
2643 : : may clobber REF. FIRST and LAST must have non-NULL vdef. We want to
2644 : : be able to sink load of REF across stores between FIRST and LAST, up
2645 : : to right before LAST. */
2646 : :
2647 : : bool
2648 : 29750 : stmts_may_clobber_ref_p (gimple *first, gimple *last, tree ref)
2649 : : {
2650 : 29750 : ao_ref r;
2651 : 29750 : ao_ref_init (&r, ref);
2652 : 29750 : unsigned int count = 0;
2653 : 29750 : tree vop = gimple_vdef (last);
2654 : 29750 : gimple *stmt;
2655 : :
2656 : : /* Return true conservatively if the basic blocks are different. */
2657 : 29750 : if (gimple_bb (first) != gimple_bb (last))
2658 : : return true;
2659 : :
2660 : 73598 : do
2661 : : {
2662 : 73598 : stmt = SSA_NAME_DEF_STMT (vop);
2663 : 73598 : if (stmt_may_clobber_ref_p_1 (stmt, &r))
2664 : : return true;
2665 : 72913 : if (gimple_store_p (stmt)
2666 : 72913 : && refs_anti_dependent_p (ref, gimple_get_lhs (stmt)))
2667 : : return true;
2668 : : /* Avoid quadratic compile time by bounding the number of checks
2669 : : we perform. */
2670 : 72524 : if (++count > MAX_STORE_ALIAS_CHECKS)
2671 : : return true;
2672 : 72524 : vop = gimple_vuse (stmt);
2673 : : }
2674 : 72524 : while (stmt != first);
2675 : :
2676 : : return false;
2677 : : }
2678 : :
2679 : : /* Return true if INFO->ops[IDX] is mergeable with the
2680 : : corresponding loads already in MERGED_STORE group.
2681 : : BASE_ADDR is the base address of the whole store group. */
2682 : :
2683 : : bool
2684 : 141203 : compatible_load_p (merged_store_group *merged_store,
2685 : : store_immediate_info *info,
2686 : : tree base_addr, int idx)
2687 : : {
2688 : 141203 : store_immediate_info *infof = merged_store->stores[0];
2689 : 141203 : if (!info->ops[idx].base_addr
2690 : 141203 : || maybe_ne (info->ops[idx].bitpos - infof->ops[idx].bitpos,
2691 : 141203 : info->bitpos - infof->bitpos)
2692 : 263366 : || !operand_equal_p (info->ops[idx].base_addr,
2693 : 122163 : infof->ops[idx].base_addr, 0))
2694 : 21259 : return false;
2695 : :
2696 : 119944 : store_immediate_info *infol = merged_store->stores.last ();
2697 : 119944 : tree load_vuse = gimple_vuse (info->ops[idx].stmt);
2698 : : /* In this case all vuses should be the same, e.g.
2699 : : _1 = s.a; _2 = s.b; _3 = _1 | 1; t.a = _3; _4 = _2 | 2; t.b = _4;
2700 : : or
2701 : : _1 = s.a; _2 = s.b; t.a = _1; t.b = _2;
2702 : : and we can emit the coalesced load next to any of those loads. */
2703 : 119944 : if (gimple_vuse (infof->ops[idx].stmt) == load_vuse
2704 : 224070 : && gimple_vuse (infol->ops[idx].stmt) == load_vuse)
2705 : : return true;
2706 : :
2707 : : /* Otherwise, at least for now require that the load has the same
2708 : : vuse as the store. See following examples. */
2709 : 31640 : if (gimple_vuse (info->stmt) != load_vuse)
2710 : : return false;
2711 : :
2712 : 25970 : if (gimple_vuse (infof->stmt) != gimple_vuse (infof->ops[idx].stmt)
2713 : 12985 : || (infof != infol
2714 : 20328 : && gimple_vuse (infol->stmt) != gimple_vuse (infol->ops[idx].stmt)))
2715 : : return false;
2716 : :
2717 : : /* If the load is from the same location as the store, already
2718 : : the construction of the immediate chain info guarantees no intervening
2719 : : stores, so no further checks are needed. Example:
2720 : : _1 = s.a; _2 = _1 & -7; s.a = _2; _3 = s.b; _4 = _3 & -7; s.b = _4; */
2721 : 8893 : if (known_eq (info->ops[idx].bitpos, info->bitpos)
2722 : 8893 : && operand_equal_p (info->ops[idx].base_addr, base_addr, 0))
2723 : : return true;
2724 : :
2725 : : /* Otherwise, we need to punt if any of the loads can be clobbered by any
2726 : : of the stores in the group, or any other stores in between those.
2727 : : Previous calls to compatible_load_p ensured that for all the
2728 : : merged_store->stores IDX loads, no stmts starting with
2729 : : merged_store->first_stmt and ending right before merged_store->last_stmt
2730 : : clobbers those loads. */
2731 : 8781 : gimple *first = merged_store->first_stmt;
2732 : 8781 : gimple *last = merged_store->last_stmt;
2733 : : /* The stores are sorted by increasing store bitpos, so if info->stmt store
2734 : : comes before the so far first load, we'll be changing
2735 : : merged_store->first_stmt. In that case we need to give up if
2736 : : any of the earlier processed loads clobber with the stmts in the new
2737 : : range. */
2738 : 8781 : if (info->order < merged_store->first_order)
2739 : : {
2740 : 1187 : for (store_immediate_info *infoc : merged_store->stores)
2741 : 335 : if (stmts_may_clobber_ref_p (info->stmt, first, infoc->ops[idx].val))
2742 : : return false;
2743 : 186 : first = info->stmt;
2744 : : }
2745 : : /* Similarly, we could change merged_store->last_stmt, so ensure
2746 : : in that case no stmts in the new range clobber any of the earlier
2747 : : processed loads. */
2748 : 8448 : else if (info->order > merged_store->last_order)
2749 : : {
2750 : 46052 : for (store_immediate_info *infoc : merged_store->stores)
2751 : 21642 : if (stmts_may_clobber_ref_p (last, info->stmt, infoc->ops[idx].val))
2752 : : return false;
2753 : 7514 : last = info->stmt;
2754 : : }
2755 : : /* And finally, we'd be adding a new load to the set, ensure it isn't
2756 : : clobbered in the new range. */
2757 : 7700 : if (stmts_may_clobber_ref_p (first, last, info->ops[idx].val))
2758 : : return false;
2759 : :
2760 : : /* Otherwise, we are looking for:
2761 : : _1 = s.a; _2 = _1 ^ 15; t.a = _2; _3 = s.b; _4 = _3 ^ 15; t.b = _4;
2762 : : or
2763 : : _1 = s.a; t.a = _1; _2 = s.b; t.b = _2; */
2764 : : return true;
2765 : : }
2766 : :
2767 : : /* Add all refs loaded to compute VAL to REFS vector. */
2768 : :
2769 : : void
2770 : 79 : gather_bswap_load_refs (vec<tree> *refs, tree val)
2771 : : {
2772 : 88 : if (TREE_CODE (val) != SSA_NAME)
2773 : : return;
2774 : :
2775 : 86 : gimple *stmt = SSA_NAME_DEF_STMT (val);
2776 : 86 : if (!is_gimple_assign (stmt))
2777 : : return;
2778 : :
2779 : 86 : if (gimple_assign_load_p (stmt))
2780 : : {
2781 : 77 : refs->safe_push (gimple_assign_rhs1 (stmt));
2782 : 77 : return;
2783 : : }
2784 : :
2785 : 9 : switch (gimple_assign_rhs_class (stmt))
2786 : : {
2787 : 2 : case GIMPLE_BINARY_RHS:
2788 : 2 : gather_bswap_load_refs (refs, gimple_assign_rhs2 (stmt));
2789 : : /* FALLTHRU */
2790 : 9 : case GIMPLE_UNARY_RHS:
2791 : 9 : gather_bswap_load_refs (refs, gimple_assign_rhs1 (stmt));
2792 : 9 : break;
2793 : 0 : default:
2794 : 0 : gcc_unreachable ();
2795 : : }
2796 : : }
2797 : :
2798 : : /* Check if there are any stores in M_STORE_INFO after index I
2799 : : (where M_STORE_INFO must be sorted by sort_by_bitpos) that overlap
2800 : : a potential group ending with END that have their order
2801 : : smaller than LAST_ORDER. ALL_INTEGER_CST_P is true if
2802 : : all the stores already merged and the one under consideration
2803 : : have rhs_code of INTEGER_CST. Return true if there are no such stores.
2804 : : Consider:
2805 : : MEM[(long long int *)p_28] = 0;
2806 : : MEM[(long long int *)p_28 + 8B] = 0;
2807 : : MEM[(long long int *)p_28 + 16B] = 0;
2808 : : MEM[(long long int *)p_28 + 24B] = 0;
2809 : : _129 = (int) _130;
2810 : : MEM[(int *)p_28 + 8B] = _129;
2811 : : MEM[(int *)p_28].a = -1;
2812 : : We already have
2813 : : MEM[(long long int *)p_28] = 0;
2814 : : MEM[(int *)p_28].a = -1;
2815 : : stmts in the current group and need to consider if it is safe to
2816 : : add MEM[(long long int *)p_28 + 8B] = 0; store into the same group.
2817 : : There is an overlap between that store and the MEM[(int *)p_28 + 8B] = _129;
2818 : : store though, so if we add the MEM[(long long int *)p_28 + 8B] = 0;
2819 : : into the group and merging of those 3 stores is successful, merged
2820 : : stmts will be emitted at the latest store from that group, i.e.
2821 : : LAST_ORDER, which is the MEM[(int *)p_28].a = -1; store.
2822 : : The MEM[(int *)p_28 + 8B] = _129; store that originally follows
2823 : : the MEM[(long long int *)p_28 + 8B] = 0; would now be before it,
2824 : : so we need to refuse merging MEM[(long long int *)p_28 + 8B] = 0;
2825 : : into the group. That way it will be its own store group and will
2826 : : not be touched. If ALL_INTEGER_CST_P and there are overlapping
2827 : : INTEGER_CST stores, those are mergeable using merge_overlapping,
2828 : : so don't return false for those.
2829 : :
2830 : : Similarly, check stores from FIRST_EARLIER (inclusive) to END_EARLIER
2831 : : (exclusive), whether they don't overlap the bitrange START to END
2832 : : and have order in between FIRST_ORDER and LAST_ORDER. This is to
2833 : : prevent merging in cases like:
2834 : : MEM <char[12]> [&b + 8B] = {};
2835 : : MEM[(short *) &b] = 5;
2836 : : _5 = *x_4(D);
2837 : : MEM <long long unsigned int> [&b + 2B] = _5;
2838 : : MEM[(char *)&b + 16B] = 88;
2839 : : MEM[(int *)&b + 20B] = 1;
2840 : : The = {} store comes in sort_by_bitpos before the = 88 store, and can't
2841 : : be merged with it, because the = _5 store overlaps these and is in between
2842 : : them in sort_by_order ordering. If it was merged, the merged store would
2843 : : go after the = _5 store and thus change behavior. */
2844 : :
2845 : : static bool
2846 : 858887 : check_no_overlap (const vec<store_immediate_info *> &m_store_info,
2847 : : unsigned int i,
2848 : : bool all_integer_cst_p, unsigned int first_order,
2849 : : unsigned int last_order, unsigned HOST_WIDE_INT start,
2850 : : unsigned HOST_WIDE_INT end, unsigned int first_earlier,
2851 : : unsigned end_earlier)
2852 : : {
2853 : 858887 : unsigned int len = m_store_info.length ();
2854 : 872376 : for (unsigned int j = first_earlier; j < end_earlier; j++)
2855 : : {
2856 : 13513 : store_immediate_info *info = m_store_info[j];
2857 : 13513 : if (info->order > first_order
2858 : 64 : && info->order < last_order
2859 : 33 : && info->bitpos + info->bitsize > start)
2860 : : return false;
2861 : : }
2862 : 997434 : for (++i; i < len; ++i)
2863 : : {
2864 : 484246 : store_immediate_info *info = m_store_info[i];
2865 : 484246 : if (info->bitpos >= end)
2866 : : break;
2867 : 138606 : if (info->order < last_order
2868 : 34722 : && (!all_integer_cst_p || info->rhs_code != INTEGER_CST))
2869 : : return false;
2870 : : }
2871 : : return true;
2872 : : }
2873 : :
2874 : : /* Return true if m_store_info[first] and at least one following store
2875 : : form a group which store try_size bitsize value which is byte swapped
2876 : : from a memory load or some value, or identity from some value.
2877 : : This uses the bswap pass APIs. */
2878 : :
2879 : : bool
2880 : 280763 : imm_store_chain_info::try_coalesce_bswap (merged_store_group *merged_store,
2881 : : unsigned int first,
2882 : : unsigned int try_size,
2883 : : unsigned int first_earlier)
2884 : : {
2885 : 280763 : unsigned int len = m_store_info.length (), last = first;
2886 : 280763 : unsigned HOST_WIDE_INT width = m_store_info[first]->bitsize;
2887 : 280763 : if (width >= try_size)
2888 : : return false;
2889 : 90146 : for (unsigned int i = first + 1; i < len; ++i)
2890 : : {
2891 : 82767 : if (m_store_info[i]->bitpos != m_store_info[first]->bitpos + width
2892 : 82250 : || m_store_info[i]->lp_nr != merged_store->lp_nr
2893 : 165017 : || m_store_info[i]->ins_stmt == NULL)
2894 : : return false;
2895 : 80718 : width += m_store_info[i]->bitsize;
2896 : 80718 : if (width >= try_size)
2897 : : {
2898 : : last = i;
2899 : : break;
2900 : : }
2901 : : }
2902 : 53781 : if (width != try_size)
2903 : : return false;
2904 : :
2905 : 46191 : bool allow_unaligned
2906 : 46191 : = !STRICT_ALIGNMENT && param_store_merging_allow_unaligned;
2907 : : /* Punt if the combined store would not be aligned and we need alignment. */
2908 : 46191 : if (!allow_unaligned)
2909 : : {
2910 : 0 : unsigned int align = merged_store->align;
2911 : 0 : unsigned HOST_WIDE_INT align_base = merged_store->align_base;
2912 : 0 : for (unsigned int i = first + 1; i <= last; ++i)
2913 : : {
2914 : 0 : unsigned int this_align;
2915 : 0 : unsigned HOST_WIDE_INT align_bitpos = 0;
2916 : 0 : get_object_alignment_1 (gimple_assign_lhs (m_store_info[i]->stmt),
2917 : : &this_align, &align_bitpos);
2918 : 0 : if (this_align > align)
2919 : : {
2920 : 0 : align = this_align;
2921 : 0 : align_base = m_store_info[i]->bitpos - align_bitpos;
2922 : : }
2923 : : }
2924 : 0 : unsigned HOST_WIDE_INT align_bitpos
2925 : 0 : = (m_store_info[first]->bitpos - align_base) & (align - 1);
2926 : 0 : if (align_bitpos)
2927 : 0 : align = least_bit_hwi (align_bitpos);
2928 : 0 : if (align < try_size)
2929 : : return false;
2930 : : }
2931 : :
2932 : 46191 : tree type;
2933 : 46191 : switch (try_size)
2934 : : {
2935 : 6160 : case 16: type = uint16_type_node; break;
2936 : 5006 : case 32: type = uint32_type_node; break;
2937 : 35025 : case 64: type = uint64_type_node; break;
2938 : 0 : default: gcc_unreachable ();
2939 : : }
2940 : 46191 : struct symbolic_number n;
2941 : 46191 : gimple *ins_stmt = NULL;
2942 : 46191 : int vuse_store = -1;
2943 : 46191 : unsigned int first_order = merged_store->first_order;
2944 : 46191 : unsigned int last_order = merged_store->last_order;
2945 : 46191 : gimple *first_stmt = merged_store->first_stmt;
2946 : 46191 : gimple *last_stmt = merged_store->last_stmt;
2947 : 46191 : unsigned HOST_WIDE_INT end = merged_store->start + merged_store->width;
2948 : 46191 : store_immediate_info *infof = m_store_info[first];
2949 : :
2950 : 126089 : for (unsigned int i = first; i <= last; ++i)
2951 : : {
2952 : 98015 : store_immediate_info *info = m_store_info[i];
2953 : 98015 : struct symbolic_number this_n = info->n;
2954 : 98015 : this_n.type = type;
2955 : 98015 : if (!this_n.base_addr)
2956 : 13106 : this_n.range = try_size / BITS_PER_UNIT;
2957 : : else
2958 : : /* Update vuse in case it has changed by output_merged_stores. */
2959 : 169818 : this_n.vuse = gimple_vuse (info->ins_stmt);
2960 : 98015 : unsigned int bitpos = info->bitpos - infof->bitpos;
2961 : 98015 : if (!do_shift_rotate (LSHIFT_EXPR, &this_n,
2962 : : BYTES_BIG_ENDIAN
2963 : : ? try_size - info->bitsize - bitpos
2964 : : : bitpos))
2965 : 18117 : return false;
2966 : 98015 : if (this_n.base_addr && vuse_store)
2967 : : {
2968 : : unsigned int j;
2969 : 125199 : for (j = first; j <= last; ++j)
2970 : 197776 : if (this_n.vuse == gimple_vuse (m_store_info[j]->stmt))
2971 : : break;
2972 : 56032 : if (j > last)
2973 : : {
2974 : 26311 : if (vuse_store == 1)
2975 : : return false;
2976 : : vuse_store = 0;
2977 : : }
2978 : : }
2979 : 98015 : if (i == first)
2980 : : {
2981 : 46191 : n = this_n;
2982 : 46191 : ins_stmt = info->ins_stmt;
2983 : : }
2984 : : else
2985 : : {
2986 : 51824 : if (n.base_addr && n.vuse != this_n.vuse)
2987 : : {
2988 : 6102 : if (vuse_store == 0)
2989 : : return false;
2990 : : vuse_store = 1;
2991 : : }
2992 : 46825 : if (info->order > last_order)
2993 : : {
2994 : 44433 : last_order = info->order;
2995 : 44433 : last_stmt = info->stmt;
2996 : : }
2997 : 2392 : else if (info->order < first_order)
2998 : : {
2999 : 2384 : first_order = info->order;
3000 : 2384 : first_stmt = info->stmt;
3001 : : }
3002 : 46825 : end = MAX (end, info->bitpos + info->bitsize);
3003 : :
3004 : 46825 : ins_stmt = perform_symbolic_merge (ins_stmt, &n, info->ins_stmt,
3005 : : &this_n, &n, BIT_IOR_EXPR);
3006 : 46825 : if (ins_stmt == NULL)
3007 : : return false;
3008 : : }
3009 : : }
3010 : :
3011 : 28074 : uint64_t cmpxchg, cmpnop;
3012 : 28074 : bool cast64_to_32;
3013 : 28074 : find_bswap_or_nop_finalize (&n, &cmpxchg, &cmpnop, &cast64_to_32);
3014 : :
3015 : : /* A complete byte swap should make the symbolic number to start with
3016 : : the largest digit in the highest order byte. Unchanged symbolic
3017 : : number indicates a read with same endianness as target architecture. */
3018 : 28074 : if (n.n != cmpnop && n.n != cmpxchg)
3019 : : return false;
3020 : :
3021 : : /* For now. */
3022 : 25740 : if (cast64_to_32)
3023 : : return false;
3024 : :
3025 : 25733 : if (n.base_addr == NULL_TREE && !is_gimple_val (n.src))
3026 : : return false;
3027 : :
3028 : 25733 : if (!check_no_overlap (m_store_info, last, false, first_order, last_order,
3029 : : merged_store->start, end, first_earlier, first))
3030 : : return false;
3031 : :
3032 : : /* Don't handle memory copy this way if normal non-bswap processing
3033 : : would handle it too. */
3034 : 25731 : if (n.n == cmpnop && (unsigned) n.n_ops == last - first + 1)
3035 : : {
3036 : : unsigned int i;
3037 : 75878 : for (i = first; i <= last; ++i)
3038 : 50784 : if (m_store_info[i]->rhs_code != MEM_REF)
3039 : : break;
3040 : 25295 : if (i == last + 1)
3041 : : return false;
3042 : : }
3043 : :
3044 : 637 : if (n.n == cmpxchg)
3045 : 436 : switch (try_size)
3046 : : {
3047 : : case 16:
3048 : : /* Will emit LROTATE_EXPR. */
3049 : : break;
3050 : 93 : case 32:
3051 : 93 : if (builtin_decl_explicit_p (BUILT_IN_BSWAP32)
3052 : 170 : && optab_handler (bswap_optab, SImode) != CODE_FOR_nothing)
3053 : : break;
3054 : 16 : return false;
3055 : 51 : case 64:
3056 : 51 : if (builtin_decl_explicit_p (BUILT_IN_BSWAP64)
3057 : 92 : && (optab_handler (bswap_optab, DImode) != CODE_FOR_nothing
3058 : 20 : || (word_mode == SImode
3059 : 20 : && builtin_decl_explicit_p (BUILT_IN_BSWAP32)
3060 : 20 : && optab_handler (bswap_optab, SImode) != CODE_FOR_nothing)))
3061 : : break;
3062 : 10 : return false;
3063 : 0 : default:
3064 : 0 : gcc_unreachable ();
3065 : : }
3066 : :
3067 : 611 : if (!allow_unaligned && n.base_addr)
3068 : : {
3069 : 0 : unsigned int align = get_object_alignment (n.src);
3070 : 0 : if (align < try_size)
3071 : : return false;
3072 : : }
3073 : :
3074 : : /* If each load has vuse of the corresponding store, need to verify
3075 : : the loads can be sunk right before the last store. */
3076 : 611 : if (vuse_store == 1)
3077 : : {
3078 : 31 : auto_vec<tree, 64> refs;
3079 : 108 : for (unsigned int i = first; i <= last; ++i)
3080 : 77 : gather_bswap_load_refs (&refs,
3081 : 77 : gimple_assign_rhs1 (m_store_info[i]->stmt));
3082 : :
3083 : 162 : for (tree ref : refs)
3084 : 73 : if (stmts_may_clobber_ref_p (first_stmt, last_stmt, ref))
3085 : 4 : return false;
3086 : 27 : n.vuse = NULL_TREE;
3087 : 31 : }
3088 : :
3089 : 607 : infof->n = n;
3090 : 607 : infof->ins_stmt = ins_stmt;
3091 : 2653 : for (unsigned int i = first; i <= last; ++i)
3092 : : {
3093 : 2882 : m_store_info[i]->rhs_code = n.n == cmpxchg ? LROTATE_EXPR : NOP_EXPR;
3094 : 2046 : m_store_info[i]->ops[0].base_addr = NULL_TREE;
3095 : 2046 : m_store_info[i]->ops[1].base_addr = NULL_TREE;
3096 : 2046 : if (i != first)
3097 : 1439 : merged_store->merge_into (m_store_info[i]);
3098 : : }
3099 : :
3100 : : return true;
3101 : : }
3102 : :
3103 : : /* Go through the candidate stores recorded in m_store_info and merge them
3104 : : into merged_store_group objects recorded into m_merged_store_groups
3105 : : representing the widened stores. Return true if coalescing was successful
3106 : : and the number of widened stores is fewer than the original number
3107 : : of stores. */
3108 : :
3109 : : bool
3110 : 544522 : imm_store_chain_info::coalesce_immediate_stores ()
3111 : : {
3112 : : /* Anything less can't be processed. */
3113 : 666946 : if (m_store_info.length () < 2)
3114 : : return false;
3115 : :
3116 : 544522 : if (dump_file && (dump_flags & TDF_DETAILS))
3117 : 25 : fprintf (dump_file, "Attempting to coalesce %u stores in chain\n",
3118 : : m_store_info.length ());
3119 : :
3120 : 544522 : store_immediate_info *info;
3121 : 544522 : unsigned int i, ignore = 0;
3122 : 544522 : unsigned int first_earlier = 0;
3123 : 544522 : unsigned int end_earlier = 0;
3124 : :
3125 : : /* Order the stores by the bitposition they write to. */
3126 : 544522 : m_store_info.qsort (sort_by_bitpos);
3127 : :
3128 : 544522 : info = m_store_info[0];
3129 : 544522 : merged_store_group *merged_store = new merged_store_group (info);
3130 : 544522 : if (dump_file && (dump_flags & TDF_DETAILS))
3131 : 25 : fputs ("New store group\n", dump_file);
3132 : :
3133 : 2277569 : FOR_EACH_VEC_ELT (m_store_info, i, info)
3134 : : {
3135 : 1733047 : unsigned HOST_WIDE_INT new_bitregion_start, new_bitregion_end;
3136 : :
3137 : 1733047 : if (i <= ignore)
3138 : 678313 : goto done;
3139 : :
3140 : : while (first_earlier < end_earlier
3141 : 1277932 : && (m_store_info[first_earlier]->bitpos
3142 : 232436 : + m_store_info[first_earlier]->bitsize
3143 : 232436 : <= merged_store->start))
3144 : 223198 : first_earlier++;
3145 : :
3146 : : /* First try to handle group of stores like:
3147 : : p[0] = data >> 24;
3148 : : p[1] = data >> 16;
3149 : : p[2] = data >> 8;
3150 : : p[3] = data;
3151 : : using the bswap framework. */
3152 : 1054734 : if (info->bitpos == merged_store->start + merged_store->width
3153 : 641789 : && merged_store->stores.length () == 1
3154 : 353514 : && merged_store->stores[0]->ins_stmt != NULL
3155 : 131414 : && info->lp_nr == merged_store->lp_nr
3156 : 1186146 : && info->ins_stmt != NULL)
3157 : : {
3158 : : unsigned int try_size;
3159 : 373868 : for (try_size = 64; try_size >= 16; try_size >>= 1)
3160 : 280763 : if (try_coalesce_bswap (merged_store, i - 1, try_size,
3161 : : first_earlier))
3162 : : break;
3163 : :
3164 : 93712 : if (try_size >= 16)
3165 : : {
3166 : 607 : ignore = i + merged_store->stores.length () - 1;
3167 : 607 : m_merged_store_groups.safe_push (merged_store);
3168 : 607 : if (ignore < m_store_info.length ())
3169 : : {
3170 : 230 : merged_store = new merged_store_group (m_store_info[ignore]);
3171 : 230 : end_earlier = ignore;
3172 : : }
3173 : : else
3174 : 377 : merged_store = NULL;
3175 : 607 : goto done;
3176 : : }
3177 : : }
3178 : :
3179 : 1054127 : new_bitregion_start
3180 : 1054127 : = MIN (merged_store->bitregion_start, info->bitregion_start);
3181 : 1054127 : new_bitregion_end
3182 : 1054127 : = MAX (merged_store->bitregion_end, info->bitregion_end);
3183 : :
3184 : 1054127 : if (info->order >= merged_store->first_nonmergeable_order
3185 : 1050323 : || (((new_bitregion_end - new_bitregion_start + 1) / BITS_PER_UNIT)
3186 : 1050323 : > (unsigned) param_store_merging_max_size))
3187 : : ;
3188 : :
3189 : : /* |---store 1---|
3190 : : |---store 2---|
3191 : : Overlapping stores. */
3192 : 1050243 : else if (IN_RANGE (info->bitpos, merged_store->start,
3193 : : merged_store->start + merged_store->width - 1)
3194 : : /* |---store 1---||---store 2---|
3195 : : Handle also the consecutive INTEGER_CST stores case here,
3196 : : as we have here the code to deal with overlaps. */
3197 : 1050243 : || (info->bitregion_start <= merged_store->bitregion_end
3198 : 643586 : && info->rhs_code == INTEGER_CST
3199 : 467712 : && merged_store->only_constants
3200 : 440122 : && merged_store->can_be_merged_into (info)))
3201 : : {
3202 : : /* Only allow overlapping stores of constants. */
3203 : 622910 : if (info->rhs_code == INTEGER_CST
3204 : 608981 : && merged_store->only_constants
3205 : 608741 : && info->lp_nr == merged_store->lp_nr)
3206 : : {
3207 : 608727 : unsigned int first_order
3208 : 608727 : = MIN (merged_store->first_order, info->order);
3209 : 608727 : unsigned int last_order
3210 : 608727 : = MAX (merged_store->last_order, info->order);
3211 : 608727 : unsigned HOST_WIDE_INT end
3212 : 608727 : = MAX (merged_store->start + merged_store->width,
3213 : : info->bitpos + info->bitsize);
3214 : 608727 : if (check_no_overlap (m_store_info, i, true, first_order,
3215 : : last_order, merged_store->start, end,
3216 : : first_earlier, end_earlier))
3217 : : {
3218 : : /* check_no_overlap call above made sure there are no
3219 : : overlapping stores with non-INTEGER_CST rhs_code
3220 : : in between the first and last of the stores we've
3221 : : just merged. If there are any INTEGER_CST rhs_code
3222 : : stores in between, we need to merge_overlapping them
3223 : : even if in the sort_by_bitpos order there are other
3224 : : overlapping stores in between. Keep those stores as is.
3225 : : Example:
3226 : : MEM[(int *)p_28] = 0;
3227 : : MEM[(char *)p_28 + 3B] = 1;
3228 : : MEM[(char *)p_28 + 1B] = 2;
3229 : : MEM[(char *)p_28 + 2B] = MEM[(char *)p_28 + 6B];
3230 : : We can't merge the zero store with the store of two and
3231 : : not merge anything else, because the store of one is
3232 : : in the original order in between those two, but in
3233 : : store_by_bitpos order it comes after the last store that
3234 : : we can't merge with them. We can merge the first 3 stores
3235 : : and keep the last store as is though. */
3236 : 608673 : unsigned int len = m_store_info.length ();
3237 : 608673 : unsigned int try_order = last_order;
3238 : 608673 : unsigned int first_nonmergeable_order;
3239 : 608673 : unsigned int k;
3240 : 608673 : bool last_iter = false;
3241 : 608673 : int attempts = 0;
3242 : 658552 : do
3243 : : {
3244 : 658552 : unsigned int max_order = 0;
3245 : 658552 : unsigned int min_order = first_order;
3246 : 658552 : unsigned first_nonmergeable_int_order = ~0U;
3247 : 658552 : unsigned HOST_WIDE_INT this_end = end;
3248 : 658552 : unsigned HOST_WIDE_INT this_bitregion_start
3249 : : = new_bitregion_start;
3250 : 658552 : unsigned HOST_WIDE_INT this_bitregion_end
3251 : : = new_bitregion_end;
3252 : 658552 : k = i;
3253 : 658552 : first_nonmergeable_order = ~0U;
3254 : 899373 : for (unsigned int j = i + 1; j < len; ++j)
3255 : : {
3256 : 546680 : store_immediate_info *info2 = m_store_info[j];
3257 : 546680 : if (info2->bitpos >= this_end)
3258 : : break;
3259 : 240824 : if (info2->order < try_order)
3260 : : {
3261 : 128388 : if (info2->rhs_code != INTEGER_CST
3262 : 128385 : || info2->lp_nr != merged_store->lp_nr)
3263 : : {
3264 : : /* Normally check_no_overlap makes sure this
3265 : : doesn't happen, but if end grows below,
3266 : : then we need to process more stores than
3267 : : check_no_overlap verified. Example:
3268 : : MEM[(int *)p_5] = 0;
3269 : : MEM[(short *)p_5 + 3B] = 1;
3270 : : MEM[(char *)p_5 + 4B] = _9;
3271 : : MEM[(char *)p_5 + 2B] = 2; */
3272 : : k = 0;
3273 : : break;
3274 : : }
3275 : 128385 : if (info2->bitregion_start
3276 : : < this_bitregion_start)
3277 : : this_bitregion_start = info2->bitregion_start;
3278 : 128385 : if (info2->bitregion_end
3279 : : > this_bitregion_end)
3280 : : this_bitregion_end = info2->bitregion_end;
3281 : 128385 : if (((this_bitregion_end - this_bitregion_start
3282 : 128385 : + 1) / BITS_PER_UNIT)
3283 : : > (unsigned) param_store_merging_max_size)
3284 : : {
3285 : : k = 0;
3286 : : break;
3287 : : }
3288 : 128385 : k = j;
3289 : 128385 : min_order = MIN (min_order, info2->order);
3290 : 128385 : this_end = MAX (this_end,
3291 : : info2->bitpos + info2->bitsize);
3292 : : }
3293 : 112436 : else if (info2->rhs_code == INTEGER_CST
3294 : 95759 : && info2->lp_nr == merged_store->lp_nr
3295 : 95759 : && !last_iter)
3296 : : {
3297 : 95759 : max_order = MAX (max_order, info2->order + 1);
3298 : 95759 : first_nonmergeable_int_order
3299 : 95759 : = MIN (first_nonmergeable_int_order,
3300 : : info2->order);
3301 : : }
3302 : : else
3303 : 16677 : first_nonmergeable_order
3304 : 16677 : = MIN (first_nonmergeable_order, info2->order);
3305 : : }
3306 : 658552 : if (k > i
3307 : 658552 : && !check_no_overlap (m_store_info, len - 1, true,
3308 : : min_order, try_order,
3309 : : merged_store->start, this_end,
3310 : : first_earlier, end_earlier))
3311 : : k = 0;
3312 : 658552 : if (k == 0)
3313 : : {
3314 : 3 : if (last_order == try_order)
3315 : : break;
3316 : : /* If this failed, but only because we grew
3317 : : try_order, retry with the last working one,
3318 : : so that we merge at least something. */
3319 : 0 : try_order = last_order;
3320 : 0 : last_iter = true;
3321 : 0 : continue;
3322 : : }
3323 : 658549 : last_order = try_order;
3324 : : /* Retry with a larger try_order to see if we could
3325 : : merge some further INTEGER_CST stores. */
3326 : 658549 : if (max_order
3327 : 658549 : && (first_nonmergeable_int_order
3328 : 658549 : < first_nonmergeable_order))
3329 : : {
3330 : 49880 : try_order = MIN (max_order,
3331 : : first_nonmergeable_order);
3332 : 49880 : try_order
3333 : 49880 : = MIN (try_order,
3334 : : merged_store->first_nonmergeable_order);
3335 : 49880 : if (try_order > last_order && ++attempts < 16)
3336 : 49879 : continue;
3337 : : }
3338 : 608670 : first_nonmergeable_order
3339 : 608670 : = MIN (first_nonmergeable_order,
3340 : : first_nonmergeable_int_order);
3341 : : end = this_end;
3342 : : break;
3343 : : }
3344 : : while (1);
3345 : :
3346 : 608673 : if (k != 0)
3347 : : {
3348 : 608670 : merged_store->merge_overlapping (info);
3349 : :
3350 : 608670 : merged_store->first_nonmergeable_order
3351 : 608670 : = MIN (merged_store->first_nonmergeable_order,
3352 : : first_nonmergeable_order);
3353 : :
3354 : 741399 : for (unsigned int j = i + 1; j <= k; j++)
3355 : : {
3356 : 132729 : store_immediate_info *info2 = m_store_info[j];
3357 : 132729 : gcc_assert (info2->bitpos < end);
3358 : 132729 : if (info2->order < last_order)
3359 : : {
3360 : 127655 : gcc_assert (info2->rhs_code == INTEGER_CST);
3361 : 127655 : if (info != info2)
3362 : 127655 : merged_store->merge_overlapping (info2);
3363 : : }
3364 : : /* Other stores are kept and not merged in any
3365 : : way. */
3366 : : }
3367 : 608670 : ignore = k;
3368 : 608670 : goto done;
3369 : : }
3370 : : }
3371 : : }
3372 : : }
3373 : : /* |---store 1---||---store 2---|
3374 : : This store is consecutive to the previous one.
3375 : : Merge it into the current store group. There can be gaps in between
3376 : : the stores, but there can't be gaps in between bitregions. */
3377 : 427333 : else if (info->bitregion_start <= merged_store->bitregion_end
3378 : 427333 : && merged_store->can_be_merged_into (info))
3379 : : {
3380 : 148837 : store_immediate_info *infof = merged_store->stores[0];
3381 : :
3382 : : /* All the rhs_code ops that take 2 operands are commutative,
3383 : : swap the operands if it could make the operands compatible. */
3384 : 148837 : if (infof->ops[0].base_addr
3385 : 139546 : && infof->ops[1].base_addr
3386 : 1662 : && info->ops[0].base_addr
3387 : 1662 : && info->ops[1].base_addr
3388 : 1662 : && known_eq (info->ops[1].bitpos - infof->ops[0].bitpos,
3389 : : info->bitpos - infof->bitpos)
3390 : 149535 : && operand_equal_p (info->ops[1].base_addr,
3391 : : infof->ops[0].base_addr, 0))
3392 : : {
3393 : 504 : std::swap (info->ops[0], info->ops[1]);
3394 : 504 : info->ops_swapped_p = true;
3395 : : }
3396 : 148837 : if (check_no_overlap (m_store_info, i, false,
3397 : 148837 : MIN (merged_store->first_order, info->order),
3398 : 148837 : MAX (merged_store->last_order, info->order),
3399 : : merged_store->start,
3400 : 148837 : MAX (merged_store->start + merged_store->width,
3401 : : info->bitpos + info->bitsize),
3402 : : first_earlier, end_earlier))
3403 : : {
3404 : : /* Turn MEM_REF into BIT_INSERT_EXPR for bit-field stores. */
3405 : 148834 : if (info->rhs_code == MEM_REF && infof->rhs_code != MEM_REF)
3406 : : {
3407 : 616 : info->rhs_code = BIT_INSERT_EXPR;
3408 : 616 : info->ops[0].val = gimple_assign_rhs1 (info->stmt);
3409 : 616 : info->ops[0].base_addr = NULL_TREE;
3410 : : }
3411 : 148218 : else if (infof->rhs_code == MEM_REF && info->rhs_code != MEM_REF)
3412 : : {
3413 : 8 : for (store_immediate_info *infoj : merged_store->stores)
3414 : : {
3415 : 2 : infoj->rhs_code = BIT_INSERT_EXPR;
3416 : 2 : infoj->ops[0].val = gimple_assign_rhs1 (infoj->stmt);
3417 : 2 : infoj->ops[0].base_addr = NULL_TREE;
3418 : : }
3419 : 2 : merged_store->bit_insertion = true;
3420 : : }
3421 : 148834 : if ((infof->ops[0].base_addr
3422 : 139541 : ? compatible_load_p (merged_store, info, base_addr, 0)
3423 : 9293 : : !info->ops[0].base_addr)
3424 : 299330 : && (infof->ops[1].base_addr
3425 : 1662 : ? compatible_load_p (merged_store, info, base_addr, 1)
3426 : 117872 : : !info->ops[1].base_addr))
3427 : : {
3428 : 119533 : merged_store->merge_into (info);
3429 : 119533 : goto done;
3430 : : }
3431 : : }
3432 : : }
3433 : :
3434 : : /* |---store 1---| <gap> |---store 2---|.
3435 : : Gap between stores or the rhs not compatible. Start a new group. */
3436 : :
3437 : : /* Try to apply all the stores recorded for the group to determine
3438 : : the bitpattern they write and discard it if that fails.
3439 : : This will also reject single-store groups. */
3440 : 325924 : if (merged_store->apply_stores ())
3441 : 56936 : m_merged_store_groups.safe_push (merged_store);
3442 : : else
3443 : 268988 : delete merged_store;
3444 : :
3445 : 325924 : merged_store = new merged_store_group (info);
3446 : 325924 : end_earlier = i;
3447 : 325924 : if (dump_file && (dump_flags & TDF_DETAILS))
3448 : 1 : fputs ("New store group\n", dump_file);
3449 : :
3450 : 1733047 : done:
3451 : 1733047 : if (dump_file && (dump_flags & TDF_DETAILS))
3452 : : {
3453 : 228 : fprintf (dump_file, "Store %u:\nbitsize:" HOST_WIDE_INT_PRINT_DEC
3454 : : " bitpos:" HOST_WIDE_INT_PRINT_DEC " val:",
3455 : : i, info->bitsize, info->bitpos);
3456 : 228 : print_generic_expr (dump_file, gimple_assign_rhs1 (info->stmt));
3457 : 228 : fputc ('\n', dump_file);
3458 : : }
3459 : : }
3460 : :
3461 : : /* Record or discard the last store group. */
3462 : 544522 : if (merged_store)
3463 : : {
3464 : 544145 : if (merged_store->apply_stores ())
3465 : 393865 : m_merged_store_groups.safe_push (merged_store);
3466 : : else
3467 : 150280 : delete merged_store;
3468 : : }
3469 : :
3470 : 1511142 : gcc_assert (m_merged_store_groups.length () <= m_store_info.length ());
3471 : :
3472 : 544522 : bool success
3473 : 544522 : = !m_merged_store_groups.is_empty ()
3474 : 422098 : && m_merged_store_groups.length () < m_store_info.length ();
3475 : :
3476 : 422098 : if (success && dump_file)
3477 : 98 : fprintf (dump_file, "Coalescing successful!\nMerged into %u stores\n",
3478 : : m_merged_store_groups.length ());
3479 : :
3480 : : return success;
3481 : : }
3482 : :
3483 : : /* Return the type to use for the merged stores or loads described by STMTS.
3484 : : This is needed to get the alias sets right. If IS_LOAD, look for rhs,
3485 : : otherwise lhs. Additionally set *CLIQUEP and *BASEP to MR_DEPENDENCE_*
3486 : : of the MEM_REFs if any. */
3487 : :
3488 : : static tree
3489 : 81207 : get_alias_type_for_stmts (vec<gimple *> &stmts, bool is_load,
3490 : : unsigned short *cliquep, unsigned short *basep)
3491 : : {
3492 : 81207 : gimple *stmt;
3493 : 81207 : unsigned int i;
3494 : 81207 : tree type = NULL_TREE;
3495 : 81207 : tree ret = NULL_TREE;
3496 : 81207 : *cliquep = 0;
3497 : 81207 : *basep = 0;
3498 : :
3499 : 282282 : FOR_EACH_VEC_ELT (stmts, i, stmt)
3500 : : {
3501 : 201075 : tree ref = is_load ? gimple_assign_rhs1 (stmt)
3502 : 197554 : : gimple_assign_lhs (stmt);
3503 : 201075 : tree type1 = reference_alias_ptr_type (ref);
3504 : 201075 : tree base = get_base_address (ref);
3505 : :
3506 : 201075 : if (i == 0)
3507 : : {
3508 : 81207 : if (TREE_CODE (base) == MEM_REF)
3509 : : {
3510 : 10074 : *cliquep = MR_DEPENDENCE_CLIQUE (base);
3511 : 10074 : *basep = MR_DEPENDENCE_BASE (base);
3512 : : }
3513 : 81207 : ret = type = type1;
3514 : 81207 : continue;
3515 : : }
3516 : 119868 : if (!alias_ptr_types_compatible_p (type, type1))
3517 : 82990 : ret = ptr_type_node;
3518 : 119868 : if (TREE_CODE (base) != MEM_REF
3519 : 18713 : || *cliquep != MR_DEPENDENCE_CLIQUE (base)
3520 : 130413 : || *basep != MR_DEPENDENCE_BASE (base))
3521 : : {
3522 : 109323 : *cliquep = 0;
3523 : 109323 : *basep = 0;
3524 : : }
3525 : : }
3526 : 81207 : return ret;
3527 : : }
3528 : :
3529 : : /* Return the location_t information we can find among the statements
3530 : : in STMTS. */
3531 : :
3532 : : static location_t
3533 : 81249 : get_location_for_stmts (vec<gimple *> &stmts)
3534 : : {
3535 : 247699 : for (gimple *stmt : stmts)
3536 : 83464 : if (gimple_has_location (stmt))
3537 : 79512 : return gimple_location (stmt);
3538 : :
3539 : : return UNKNOWN_LOCATION;
3540 : : }
3541 : :
3542 : : /* Used to decribe a store resulting from splitting a wide store in smaller
3543 : : regularly-sized stores in split_group. */
3544 : :
3545 : 883846 : class split_store
3546 : : {
3547 : : public:
3548 : : unsigned HOST_WIDE_INT bytepos;
3549 : : unsigned HOST_WIDE_INT size;
3550 : : unsigned HOST_WIDE_INT align;
3551 : : auto_vec<store_immediate_info *> orig_stores;
3552 : : /* True if there is a single orig stmt covering the whole split store. */
3553 : : bool orig;
3554 : : split_store (unsigned HOST_WIDE_INT, unsigned HOST_WIDE_INT,
3555 : : unsigned HOST_WIDE_INT);
3556 : : };
3557 : :
3558 : : /* Simple constructor. */
3559 : :
3560 : 883846 : split_store::split_store (unsigned HOST_WIDE_INT bp,
3561 : : unsigned HOST_WIDE_INT sz,
3562 : 883846 : unsigned HOST_WIDE_INT al)
3563 : 883846 : : bytepos (bp), size (sz), align (al), orig (false)
3564 : : {
3565 : 883846 : orig_stores.create (0);
3566 : 0 : }
3567 : :
3568 : : /* Record all stores in GROUP that write to the region starting at BITPOS and
3569 : : is of size BITSIZE. Record infos for such statements in STORES if
3570 : : non-NULL. The stores in GROUP must be sorted by bitposition. Return INFO
3571 : : if there is exactly one original store in the range (in that case ignore
3572 : : clobber stmts, unless there are only clobber stmts). */
3573 : :
3574 : : static store_immediate_info *
3575 : 7728495 : find_constituent_stores (class merged_store_group *group,
3576 : : vec<store_immediate_info *> *stores,
3577 : : unsigned int *first,
3578 : : unsigned HOST_WIDE_INT bitpos,
3579 : : unsigned HOST_WIDE_INT bitsize)
3580 : : {
3581 : 7728495 : store_immediate_info *info, *ret = NULL;
3582 : 7728495 : unsigned int i;
3583 : 7728495 : bool second = false;
3584 : 7728495 : bool update_first = true;
3585 : 7728495 : unsigned HOST_WIDE_INT end = bitpos + bitsize;
3586 : 22132881 : for (i = *first; group->stores.iterate (i, &info); ++i)
3587 : : {
3588 : 18412756 : unsigned HOST_WIDE_INT stmt_start = info->bitpos;
3589 : 18412756 : unsigned HOST_WIDE_INT stmt_end = stmt_start + info->bitsize;
3590 : 18412756 : if (stmt_end <= bitpos)
3591 : : {
3592 : : /* BITPOS passed to this function never decreases from within the
3593 : : same split_group call, so optimize and don't scan info records
3594 : : which are known to end before or at BITPOS next time.
3595 : : Only do it if all stores before this one also pass this. */
3596 : 5972341 : if (update_first)
3597 : 1963230 : *first = i + 1;
3598 : 5972341 : continue;
3599 : : }
3600 : : else
3601 : 12440415 : update_first = false;
3602 : :
3603 : : /* The stores in GROUP are ordered by bitposition so if we're past
3604 : : the region for this group return early. */
3605 : 12440415 : if (stmt_start >= end)
3606 : : return ret;
3607 : :
3608 : 8741400 : if (gimple_clobber_p (info->stmt))
3609 : : {
3610 : 2110987 : if (stores)
3611 : 110112 : stores->safe_push (info);
3612 : 2110987 : if (ret == NULL)
3613 : 1715199 : ret = info;
3614 : 2110987 : continue;
3615 : : }
3616 : 6630413 : if (stores)
3617 : : {
3618 : 995032 : stores->safe_push (info);
3619 : 995032 : if (ret && !gimple_clobber_p (ret->stmt))
3620 : : {
3621 : : ret = NULL;
3622 : : second = true;
3623 : : }
3624 : : }
3625 : 5635381 : else if (ret && !gimple_clobber_p (ret->stmt))
3626 : : return NULL;
3627 : 6237078 : if (!second)
3628 : 6208493 : ret = info;
3629 : : }
3630 : : return ret;
3631 : : }
3632 : :
3633 : : /* Return how many SSA_NAMEs used to compute value to store in the INFO
3634 : : store have multiple uses. If any SSA_NAME has multiple uses, also
3635 : : count statements needed to compute it. */
3636 : :
3637 : : static unsigned
3638 : 1145998 : count_multiple_uses (store_immediate_info *info)
3639 : : {
3640 : 1145998 : gimple *stmt = info->stmt;
3641 : 1145998 : unsigned ret = 0;
3642 : 1145998 : switch (info->rhs_code)
3643 : : {
3644 : : case INTEGER_CST:
3645 : : case STRING_CST:
3646 : : return 0;
3647 : 6322 : case BIT_AND_EXPR:
3648 : 6322 : case BIT_IOR_EXPR:
3649 : 6322 : case BIT_XOR_EXPR:
3650 : 6322 : if (info->bit_not_p)
3651 : : {
3652 : 65 : if (!has_single_use (gimple_assign_rhs1 (stmt)))
3653 : : ret = 1; /* Fall through below to return
3654 : : the BIT_NOT_EXPR stmt and then
3655 : : BIT_{AND,IOR,XOR}_EXPR and anything it
3656 : : uses. */
3657 : : else
3658 : : /* stmt is after this the BIT_NOT_EXPR. */
3659 : 65 : stmt = SSA_NAME_DEF_STMT (gimple_assign_rhs1 (stmt));
3660 : : }
3661 : 6322 : if (!has_single_use (gimple_assign_rhs1 (stmt)))
3662 : : {
3663 : 10 : ret += 1 + info->ops[0].bit_not_p;
3664 : 10 : if (info->ops[1].base_addr)
3665 : 10 : ret += 1 + info->ops[1].bit_not_p;
3666 : 10 : return ret + 1;
3667 : : }
3668 : 6312 : stmt = SSA_NAME_DEF_STMT (gimple_assign_rhs1 (stmt));
3669 : : /* stmt is now the BIT_*_EXPR. */
3670 : 6312 : if (!has_single_use (gimple_assign_rhs1 (stmt)))
3671 : 4748 : ret += 1 + info->ops[info->ops_swapped_p].bit_not_p;
3672 : 1564 : else if (info->ops[info->ops_swapped_p].bit_not_p)
3673 : : {
3674 : 171 : gimple *stmt2 = SSA_NAME_DEF_STMT (gimple_assign_rhs1 (stmt));
3675 : 171 : if (!has_single_use (gimple_assign_rhs1 (stmt2)))
3676 : 0 : ++ret;
3677 : : }
3678 : 6312 : if (info->ops[1].base_addr == NULL_TREE)
3679 : : {
3680 : 342 : gcc_checking_assert (!info->ops_swapped_p);
3681 : : return ret;
3682 : : }
3683 : 5970 : if (!has_single_use (gimple_assign_rhs2 (stmt)))
3684 : 880 : ret += 1 + info->ops[1 - info->ops_swapped_p].bit_not_p;
3685 : 5090 : else if (info->ops[1 - info->ops_swapped_p].bit_not_p)
3686 : : {
3687 : 19 : gimple *stmt2 = SSA_NAME_DEF_STMT (gimple_assign_rhs2 (stmt));
3688 : 19 : if (!has_single_use (gimple_assign_rhs1 (stmt2)))
3689 : 0 : ++ret;
3690 : : }
3691 : : return ret;
3692 : 282929 : case MEM_REF:
3693 : 282929 : if (!has_single_use (gimple_assign_rhs1 (stmt)))
3694 : 155306 : return 1 + info->ops[0].bit_not_p;
3695 : 127623 : else if (info->ops[0].bit_not_p)
3696 : : {
3697 : 88 : stmt = SSA_NAME_DEF_STMT (gimple_assign_rhs1 (stmt));
3698 : 88 : if (!has_single_use (gimple_assign_rhs1 (stmt)))
3699 : : return 1;
3700 : : }
3701 : : return 0;
3702 : 9986 : case BIT_INSERT_EXPR:
3703 : 9986 : return has_single_use (gimple_assign_rhs1 (stmt)) ? 0 : 1;
3704 : 0 : default:
3705 : 0 : gcc_unreachable ();
3706 : : }
3707 : : }
3708 : :
3709 : : /* Split a merged store described by GROUP by populating the SPLIT_STORES
3710 : : vector (if non-NULL) with split_store structs describing the byte offset
3711 : : (from the base), the bit size and alignment of each store as well as the
3712 : : original statements involved in each such split group.
3713 : : This is to separate the splitting strategy from the statement
3714 : : building/emission/linking done in output_merged_store.
3715 : : Return number of new stores.
3716 : : If ALLOW_UNALIGNED_STORE is false, then all stores must be aligned.
3717 : : If ALLOW_UNALIGNED_LOAD is false, then all loads must be aligned.
3718 : : BZERO_FIRST may be true only when the first store covers the whole group
3719 : : and clears it; if BZERO_FIRST is true, keep that first store in the set
3720 : : unmodified and emit further stores for the overrides only.
3721 : : If SPLIT_STORES is NULL, it is just a dry run to count number of
3722 : : new stores. */
3723 : :
3724 : : static unsigned int
3725 : 1005992 : split_group (merged_store_group *group, bool allow_unaligned_store,
3726 : : bool allow_unaligned_load, bool bzero_first,
3727 : : vec<split_store *> *split_stores,
3728 : : unsigned *total_orig,
3729 : : unsigned *total_new)
3730 : : {
3731 : 1005992 : unsigned HOST_WIDE_INT pos = group->bitregion_start;
3732 : 1005992 : unsigned HOST_WIDE_INT size = group->bitregion_end - pos;
3733 : 1005992 : unsigned HOST_WIDE_INT bytepos = pos / BITS_PER_UNIT;
3734 : 1005992 : unsigned HOST_WIDE_INT group_align = group->align;
3735 : 1005992 : unsigned HOST_WIDE_INT align_base = group->align_base;
3736 : 1005992 : unsigned HOST_WIDE_INT group_load_align = group_align;
3737 : 1005992 : bool any_orig = false;
3738 : :
3739 : 1005992 : gcc_assert ((size % BITS_PER_UNIT == 0) && (pos % BITS_PER_UNIT == 0));
3740 : :
3741 : : /* For bswap framework using sets of stores, all the checking has been done
3742 : : earlier in try_coalesce_bswap and the result always needs to be emitted
3743 : : as a single store. Likewise for string concatenation. */
3744 : 1005992 : if (group->stores[0]->rhs_code == LROTATE_EXPR
3745 : 1004774 : || group->stores[0]->rhs_code == NOP_EXPR
3746 : 2010163 : || group->string_concatenation)
3747 : : {
3748 : 2022 : gcc_assert (!bzero_first);
3749 : 2022 : if (total_orig)
3750 : : {
3751 : : /* Avoid the old/new stmt count heuristics. It should be
3752 : : always beneficial. */
3753 : 674 : total_new[0] = 1;
3754 : 674 : total_orig[0] = 2;
3755 : : }
3756 : :
3757 : 2022 : if (split_stores)
3758 : : {
3759 : 674 : unsigned HOST_WIDE_INT align_bitpos
3760 : 674 : = (group->start - align_base) & (group_align - 1);
3761 : 674 : unsigned HOST_WIDE_INT align = group_align;
3762 : 674 : if (align_bitpos)
3763 : 72 : align = least_bit_hwi (align_bitpos);
3764 : 674 : bytepos = group->start / BITS_PER_UNIT;
3765 : 674 : split_store *store
3766 : 674 : = new split_store (bytepos, group->width, align);
3767 : 674 : unsigned int first = 0;
3768 : 674 : find_constituent_stores (group, &store->orig_stores,
3769 : : &first, group->start, group->width);
3770 : 674 : split_stores->safe_push (store);
3771 : : }
3772 : :
3773 : 2022 : return 1;
3774 : : }
3775 : :
3776 : 1003970 : unsigned int ret = 0, first = 0;
3777 : 1003970 : unsigned HOST_WIDE_INT try_pos = bytepos;
3778 : :
3779 : 1003970 : if (total_orig)
3780 : : {
3781 : 329040 : unsigned int i;
3782 : 329040 : store_immediate_info *info = group->stores[0];
3783 : :
3784 : 329040 : total_new[0] = 0;
3785 : 329040 : total_orig[0] = 1; /* The orig store. */
3786 : 329040 : info = group->stores[0];
3787 : 329040 : if (info->ops[0].base_addr)
3788 : 87126 : total_orig[0]++;
3789 : 329040 : if (info->ops[1].base_addr)
3790 : 1504 : total_orig[0]++;
3791 : 329040 : switch (info->rhs_code)
3792 : : {
3793 : 1610 : case BIT_AND_EXPR:
3794 : 1610 : case BIT_IOR_EXPR:
3795 : 1610 : case BIT_XOR_EXPR:
3796 : 1610 : total_orig[0]++; /* The orig BIT_*_EXPR stmt. */
3797 : 1610 : break;
3798 : : default:
3799 : : break;
3800 : : }
3801 : 329040 : total_orig[0] *= group->stores.length ();
3802 : :
3803 : 1383011 : FOR_EACH_VEC_ELT (group->stores, i, info)
3804 : : {
3805 : 1053971 : total_new[0] += count_multiple_uses (info);
3806 : 1053971 : total_orig[0] += (info->bit_not_p
3807 : 1053971 : + info->ops[0].bit_not_p
3808 : 1053971 : + info->ops[1].bit_not_p);
3809 : : }
3810 : : }
3811 : :
3812 : 1003970 : if (!allow_unaligned_load)
3813 : 0 : for (int i = 0; i < 2; ++i)
3814 : 0 : if (group->load_align[i])
3815 : 0 : group_load_align = MIN (group_load_align, group->load_align[i]);
3816 : :
3817 : 1003970 : if (bzero_first)
3818 : : {
3819 : : store_immediate_info *gstore;
3820 : 20202 : FOR_EACH_VEC_ELT (group->stores, first, gstore)
3821 : 20202 : if (!gimple_clobber_p (gstore->stmt))
3822 : : break;
3823 : 18223 : ++first;
3824 : 18223 : ret = 1;
3825 : 18223 : if (split_stores)
3826 : : {
3827 : 1373 : split_store *store
3828 : 1373 : = new split_store (bytepos, gstore->bitsize, align_base);
3829 : 1373 : store->orig_stores.safe_push (gstore);
3830 : 1373 : store->orig = true;
3831 : 1373 : any_orig = true;
3832 : 1373 : split_stores->safe_push (store);
3833 : : }
3834 : : }
3835 : :
3836 : 5648511 : while (size > 0)
3837 : : {
3838 : 4644541 : if ((allow_unaligned_store || group_align <= BITS_PER_UNIT)
3839 : 1909982 : && (group->mask[try_pos - bytepos] == (unsigned char) ~0U
3840 : 1899832 : || (bzero_first && group->val[try_pos - bytepos] == 0)))
3841 : : {
3842 : : /* Skip padding bytes. */
3843 : 538179 : ++try_pos;
3844 : 538179 : size -= BITS_PER_UNIT;
3845 : 538179 : continue;
3846 : : }
3847 : :
3848 : 4106362 : unsigned HOST_WIDE_INT try_bitpos = try_pos * BITS_PER_UNIT;
3849 : 4106362 : unsigned int try_size = MAX_STORE_BITSIZE, nonmasked;
3850 : 4106362 : unsigned HOST_WIDE_INT align_bitpos
3851 : 4106362 : = (try_bitpos - align_base) & (group_align - 1);
3852 : 4106362 : unsigned HOST_WIDE_INT align = group_align;
3853 : 4106362 : bool found_orig = false;
3854 : 4106362 : if (align_bitpos)
3855 : 996639 : align = least_bit_hwi (align_bitpos);
3856 : 4106362 : if (!allow_unaligned_store)
3857 : 2764445 : try_size = MIN (try_size, align);
3858 : 4106362 : if (!allow_unaligned_load)
3859 : : {
3860 : : /* If we can't do or don't want to do unaligned stores
3861 : : as well as loads, we need to take the loads into account
3862 : : as well. */
3863 : 0 : unsigned HOST_WIDE_INT load_align = group_load_align;
3864 : 0 : align_bitpos = (try_bitpos - align_base) & (load_align - 1);
3865 : 0 : if (align_bitpos)
3866 : 0 : load_align = least_bit_hwi (align_bitpos);
3867 : 0 : for (int i = 0; i < 2; ++i)
3868 : 0 : if (group->load_align[i])
3869 : : {
3870 : 0 : align_bitpos
3871 : 0 : = known_alignment (try_bitpos
3872 : 0 : - group->stores[0]->bitpos
3873 : 0 : + group->stores[0]->ops[i].bitpos
3874 : 0 : - group->load_align_base[i]);
3875 : 0 : if (align_bitpos & (group_load_align - 1))
3876 : : {
3877 : 0 : unsigned HOST_WIDE_INT a = least_bit_hwi (align_bitpos);
3878 : 0 : load_align = MIN (load_align, a);
3879 : : }
3880 : : }
3881 : 0 : try_size = MIN (try_size, load_align);
3882 : : }
3883 : 4106362 : store_immediate_info *info
3884 : 4106362 : = find_constituent_stores (group, NULL, &first, try_bitpos, try_size);
3885 : 4106362 : if (info && !gimple_clobber_p (info->stmt))
3886 : : {
3887 : : /* If there is just one original statement for the range, see if
3888 : : we can just reuse the original store which could be even larger
3889 : : than try_size. */
3890 : 2520830 : unsigned HOST_WIDE_INT stmt_end
3891 : 2520830 : = ROUND_UP (info->bitpos + info->bitsize, BITS_PER_UNIT);
3892 : 2520830 : info = find_constituent_stores (group, NULL, &first, try_bitpos,
3893 : : stmt_end - try_bitpos);
3894 : 2520830 : if (info && info->bitpos >= try_bitpos)
3895 : : {
3896 : 2364555 : store_immediate_info *info2 = NULL;
3897 : 2364555 : unsigned int first_copy = first;
3898 : 2364555 : if (info->bitpos > try_bitpos
3899 : 4273 : && stmt_end - try_bitpos <= try_size)
3900 : : {
3901 : 4047 : info2 = find_constituent_stores (group, NULL, &first_copy,
3902 : : try_bitpos,
3903 : : info->bitpos - try_bitpos);
3904 : 4047 : gcc_assert (info2 == NULL || gimple_clobber_p (info2->stmt));
3905 : : }
3906 : 2364281 : if (info2 == NULL && stmt_end - try_bitpos < try_size)
3907 : : {
3908 : 429566 : info2 = find_constituent_stores (group, NULL, &first_copy,
3909 : : stmt_end,
3910 : 214783 : (try_bitpos + try_size)
3911 : : - stmt_end);
3912 : 214783 : gcc_assert (info2 == NULL || gimple_clobber_p (info2->stmt));
3913 : : }
3914 : : if (info2 == NULL)
3915 : : {
3916 : 2325336 : try_size = stmt_end - try_bitpos;
3917 : 2325336 : found_orig = true;
3918 : 2325336 : goto found;
3919 : : }
3920 : : }
3921 : : }
3922 : :
3923 : : /* Approximate store bitsize for the case when there are no padding
3924 : : bits. */
3925 : 1868838 : while (try_size > size)
3926 : 87812 : try_size /= 2;
3927 : : /* Now look for whole padding bytes at the end of that bitsize. */
3928 : 2746775 : for (nonmasked = try_size / BITS_PER_UNIT; nonmasked > 0; --nonmasked)
3929 : 2591765 : if (group->mask[try_pos - bytepos + nonmasked - 1]
3930 : : != (unsigned char) ~0U
3931 : 2554676 : && (!bzero_first
3932 : 935553 : || group->val[try_pos - bytepos + nonmasked - 1] != 0))
3933 : : break;
3934 : 1781026 : if (nonmasked == 0 || (info && gimple_clobber_p (info->stmt)))
3935 : : {
3936 : : /* If entire try_size range is padding, skip it. */
3937 : 1301167 : try_pos += try_size / BITS_PER_UNIT;
3938 : 1301167 : size -= try_size;
3939 : 1301167 : continue;
3940 : : }
3941 : : /* Otherwise try to decrease try_size if second half, last 3 quarters
3942 : : etc. are padding. */
3943 : 479859 : nonmasked *= BITS_PER_UNIT;
3944 : 494604 : while (nonmasked <= try_size / 2)
3945 : : try_size /= 2;
3946 : 479859 : if (!allow_unaligned_store && group_align > BITS_PER_UNIT)
3947 : : {
3948 : : /* Now look for whole padding bytes at the start of that bitsize. */
3949 : 285926 : unsigned int try_bytesize = try_size / BITS_PER_UNIT, masked;
3950 : 294852 : for (masked = 0; masked < try_bytesize; ++masked)
3951 : 294852 : if (group->mask[try_pos - bytepos + masked] != (unsigned char) ~0U
3952 : 292800 : && (!bzero_first
3953 : 10386 : || group->val[try_pos - bytepos + masked] != 0))
3954 : : break;
3955 : 285926 : masked *= BITS_PER_UNIT;
3956 : 285926 : gcc_assert (masked < try_size);
3957 : 285926 : if (masked >= try_size / 2)
3958 : : {
3959 : 5340 : while (masked >= try_size / 2)
3960 : : {
3961 : 2774 : try_size /= 2;
3962 : 2774 : try_pos += try_size / BITS_PER_UNIT;
3963 : 2774 : size -= try_size;
3964 : 2774 : masked -= try_size;
3965 : : }
3966 : : /* Need to recompute the alignment, so just retry at the new
3967 : : position. */
3968 : 2566 : continue;
3969 : : }
3970 : : }
3971 : :
3972 : 193933 : found:
3973 : 2802629 : ++ret;
3974 : :
3975 : 2802629 : if (split_stores)
3976 : : {
3977 : 881799 : split_store *store
3978 : 881799 : = new split_store (try_pos, try_size, align);
3979 : 881799 : info = find_constituent_stores (group, &store->orig_stores,
3980 : : &first, try_bitpos, try_size);
3981 : 881799 : if (info
3982 : 798521 : && !gimple_clobber_p (info->stmt)
3983 : 798487 : && info->bitpos >= try_bitpos
3984 : 791424 : && info->bitpos + info->bitsize <= try_bitpos + try_size
3985 : 1671606 : && (store->orig_stores.length () == 1
3986 : 72048 : || found_orig
3987 : 13434 : || (info->bitpos == try_bitpos
3988 : 13380 : && (info->bitpos + info->bitsize
3989 : : == try_bitpos + try_size))))
3990 : : {
3991 : 776835 : store->orig = true;
3992 : 776835 : any_orig = true;
3993 : : }
3994 : 881799 : split_stores->safe_push (store);
3995 : : }
3996 : :
3997 : 2802629 : try_pos += try_size / BITS_PER_UNIT;
3998 : 2802629 : size -= try_size;
3999 : : }
4000 : :
4001 : 1003970 : if (total_orig)
4002 : : {
4003 : 329040 : unsigned int i;
4004 : 329040 : split_store *store;
4005 : : /* If we are reusing some original stores and any of the
4006 : : original SSA_NAMEs had multiple uses, we need to subtract
4007 : : those now before we add the new ones. */
4008 : 329040 : if (total_new[0] && any_orig)
4009 : : {
4010 : 134711 : FOR_EACH_VEC_ELT (*split_stores, i, store)
4011 : 92422 : if (store->orig)
4012 : 92027 : total_new[0] -= count_multiple_uses (store->orig_stores[0]);
4013 : : }
4014 : 329040 : total_new[0] += ret; /* The new store. */
4015 : 329040 : store_immediate_info *info = group->stores[0];
4016 : 329040 : if (info->ops[0].base_addr)
4017 : 87126 : total_new[0] += ret;
4018 : 329040 : if (info->ops[1].base_addr)
4019 : 1504 : total_new[0] += ret;
4020 : 329040 : switch (info->rhs_code)
4021 : : {
4022 : 1610 : case BIT_AND_EXPR:
4023 : 1610 : case BIT_IOR_EXPR:
4024 : 1610 : case BIT_XOR_EXPR:
4025 : 1610 : total_new[0] += ret; /* The new BIT_*_EXPR stmt. */
4026 : 1610 : break;
4027 : : default:
4028 : : break;
4029 : : }
4030 : 1212212 : FOR_EACH_VEC_ELT (*split_stores, i, store)
4031 : : {
4032 : 883172 : unsigned int j;
4033 : 883172 : bool bit_not_p[3] = { false, false, false };
4034 : : /* If all orig_stores have certain bit_not_p set, then
4035 : : we'd use a BIT_NOT_EXPR stmt and need to account for it.
4036 : : If some orig_stores have certain bit_not_p set, then
4037 : : we'd use a BIT_XOR_EXPR with a mask and need to account for
4038 : : it. */
4039 : 1987219 : FOR_EACH_VEC_ELT (store->orig_stores, j, info)
4040 : : {
4041 : 1104047 : if (info->ops[0].bit_not_p)
4042 : 261 : bit_not_p[0] = true;
4043 : 1104047 : if (info->ops[1].bit_not_p)
4044 : 17 : bit_not_p[1] = true;
4045 : 1104047 : if (info->bit_not_p)
4046 : 65 : bit_not_p[2] = true;
4047 : : }
4048 : 883172 : total_new[0] += bit_not_p[0] + bit_not_p[1] + bit_not_p[2];
4049 : : }
4050 : :
4051 : : }
4052 : :
4053 : : return ret;
4054 : : }
4055 : :
4056 : : /* Return the operation through which the operand IDX (if < 2) or
4057 : : result (IDX == 2) should be inverted. If NOP_EXPR, no inversion
4058 : : is done, if BIT_NOT_EXPR, all bits are inverted, if BIT_XOR_EXPR,
4059 : : the bits should be xored with mask. */
4060 : :
4061 : : static enum tree_code
4062 : 1984 : invert_op (split_store *split_store, int idx, tree int_type, tree &mask)
4063 : : {
4064 : 1984 : unsigned int i;
4065 : 1984 : store_immediate_info *info;
4066 : 1984 : unsigned int cnt = 0;
4067 : 1984 : bool any_paddings = false;
4068 : 7709 : FOR_EACH_VEC_ELT (split_store->orig_stores, i, info)
4069 : : {
4070 : 5725 : bool bit_not_p = idx < 2 ? info->ops[idx].bit_not_p : info->bit_not_p;
4071 : 5725 : if (bit_not_p)
4072 : : {
4073 : 67 : ++cnt;
4074 : 67 : tree lhs = gimple_assign_lhs (info->stmt);
4075 : 134 : if (INTEGRAL_TYPE_P (TREE_TYPE (lhs))
4076 : 134 : && TYPE_PRECISION (TREE_TYPE (lhs)) < info->bitsize)
4077 : : any_paddings = true;
4078 : : }
4079 : : }
4080 : 1984 : mask = NULL_TREE;
4081 : 1984 : if (cnt == 0)
4082 : : return NOP_EXPR;
4083 : 50 : if (cnt == split_store->orig_stores.length () && !any_paddings)
4084 : : return BIT_NOT_EXPR;
4085 : :
4086 : 16 : unsigned HOST_WIDE_INT try_bitpos = split_store->bytepos * BITS_PER_UNIT;
4087 : 16 : unsigned buf_size = split_store->size / BITS_PER_UNIT;
4088 : 16 : unsigned char *buf
4089 : 16 : = XALLOCAVEC (unsigned char, buf_size);
4090 : 16 : memset (buf, ~0U, buf_size);
4091 : 68 : FOR_EACH_VEC_ELT (split_store->orig_stores, i, info)
4092 : : {
4093 : 52 : bool bit_not_p = idx < 2 ? info->ops[idx].bit_not_p : info->bit_not_p;
4094 : 52 : if (!bit_not_p)
4095 : 25 : continue;
4096 : : /* Clear regions with bit_not_p and invert afterwards, rather than
4097 : : clear regions with !bit_not_p, so that gaps in between stores aren't
4098 : : set in the mask. */
4099 : 27 : unsigned HOST_WIDE_INT bitsize = info->bitsize;
4100 : 27 : unsigned HOST_WIDE_INT prec = bitsize;
4101 : 27 : unsigned int pos_in_buffer = 0;
4102 : 27 : if (any_paddings)
4103 : : {
4104 : 8 : tree lhs = gimple_assign_lhs (info->stmt);
4105 : 16 : if (INTEGRAL_TYPE_P (TREE_TYPE (lhs))
4106 : 16 : && TYPE_PRECISION (TREE_TYPE (lhs)) < bitsize)
4107 : 8 : prec = TYPE_PRECISION (TREE_TYPE (lhs));
4108 : : }
4109 : 27 : if (info->bitpos < try_bitpos)
4110 : : {
4111 : 0 : gcc_assert (info->bitpos + bitsize > try_bitpos);
4112 : 0 : if (!BYTES_BIG_ENDIAN)
4113 : : {
4114 : 0 : if (prec <= try_bitpos - info->bitpos)
4115 : 0 : continue;
4116 : 0 : prec -= try_bitpos - info->bitpos;
4117 : : }
4118 : 0 : bitsize -= try_bitpos - info->bitpos;
4119 : 0 : if (BYTES_BIG_ENDIAN && prec > bitsize)
4120 : : prec = bitsize;
4121 : : }
4122 : : else
4123 : 27 : pos_in_buffer = info->bitpos - try_bitpos;
4124 : 27 : if (prec < bitsize)
4125 : : {
4126 : : /* If this is a bool inversion, invert just the least significant
4127 : : prec bits rather than all bits of it. */
4128 : : if (BYTES_BIG_ENDIAN)
4129 : : {
4130 : : pos_in_buffer += bitsize - prec;
4131 : : if (pos_in_buffer >= split_store->size)
4132 : : continue;
4133 : : }
4134 : : bitsize = prec;
4135 : : }
4136 : 27 : if (pos_in_buffer + bitsize > split_store->size)
4137 : 0 : bitsize = split_store->size - pos_in_buffer;
4138 : 27 : unsigned char *p = buf + (pos_in_buffer / BITS_PER_UNIT);
4139 : 27 : if (BYTES_BIG_ENDIAN)
4140 : : clear_bit_region_be (p, (BITS_PER_UNIT - 1
4141 : : - (pos_in_buffer % BITS_PER_UNIT)), bitsize);
4142 : : else
4143 : 27 : clear_bit_region (p, pos_in_buffer % BITS_PER_UNIT, bitsize);
4144 : : }
4145 : 96 : for (unsigned int i = 0; i < buf_size; ++i)
4146 : 80 : buf[i] = ~buf[i];
4147 : 16 : mask = native_interpret_expr (int_type, buf, buf_size);
4148 : 16 : return BIT_XOR_EXPR;
4149 : : }
4150 : :
4151 : : /* Given a merged store group GROUP output the widened version of it.
4152 : : The store chain is against the base object BASE.
4153 : : Try store sizes of at most MAX_STORE_BITSIZE bits wide and don't output
4154 : : unaligned stores for STRICT_ALIGNMENT targets or if it's too expensive.
4155 : : Make sure that the number of statements output is less than the number of
4156 : : original statements. If a better sequence is possible emit it and
4157 : : return true. */
4158 : :
4159 : : bool
4160 : 451408 : imm_store_chain_info::output_merged_store (merged_store_group *group)
4161 : : {
4162 : 451408 : const unsigned HOST_WIDE_INT start_byte_pos
4163 : 451408 : = group->bitregion_start / BITS_PER_UNIT;
4164 : 573102 : unsigned int orig_num_stmts = group->stores.length ();
4165 : 451408 : if (orig_num_stmts < 2)
4166 : : return false;
4167 : :
4168 : 451408 : bool allow_unaligned_store
4169 : 451408 : = !STRICT_ALIGNMENT && param_store_merging_allow_unaligned;
4170 : 451408 : bool allow_unaligned_load = allow_unaligned_store;
4171 : 451408 : bool bzero_first = false;
4172 : 451408 : store_immediate_info *store;
4173 : 451408 : unsigned int num_clobber_stmts = 0;
4174 : 451408 : if (group->stores[0]->rhs_code == INTEGER_CST)
4175 : : {
4176 : : unsigned int i;
4177 : 665594 : FOR_EACH_VEC_ELT (group->stores, i, store)
4178 : 543900 : if (gimple_clobber_p (store->stmt))
4179 : 304905 : num_clobber_stmts++;
4180 : 238995 : else if (TREE_CODE (gimple_assign_rhs1 (store->stmt)) == CONSTRUCTOR
4181 : 14729 : && CONSTRUCTOR_NELTS (gimple_assign_rhs1 (store->stmt)) == 0
4182 : 14729 : && group->start == store->bitpos
4183 : 14578 : && group->width == store->bitsize
4184 : 8425 : && (group->start % BITS_PER_UNIT) == 0
4185 : 247420 : && (group->width % BITS_PER_UNIT) == 0)
4186 : : {
4187 : : bzero_first = true;
4188 : : break;
4189 : : }
4190 : : else
4191 : : break;
4192 : 1155398 : FOR_EACH_VEC_ELT_FROM (group->stores, i, store, i)
4193 : 794709 : if (gimple_clobber_p (store->stmt))
4194 : 20070 : num_clobber_stmts++;
4195 : 360689 : if (num_clobber_stmts == orig_num_stmts)
4196 : : return false;
4197 : 238995 : orig_num_stmts -= num_clobber_stmts;
4198 : : }
4199 : 329714 : if (allow_unaligned_store || bzero_first)
4200 : : {
4201 : : /* If unaligned stores are allowed, see how many stores we'd emit
4202 : : for unaligned and how many stores we'd emit for aligned stores.
4203 : : Only use unaligned stores if it allows fewer stores than aligned.
4204 : : Similarly, if there is a whole region clear first, prefer expanding
4205 : : it together compared to expanding clear first followed by merged
4206 : : further stores. */
4207 : 329714 : unsigned cnt[4] = { ~0U, ~0U, ~0U, ~0U };
4208 : 329714 : int pass_min = 0;
4209 : 1648570 : for (int pass = 0; pass < 4; ++pass)
4210 : : {
4211 : 1318856 : if (!allow_unaligned_store && (pass & 1) != 0)
4212 : 0 : continue;
4213 : 1318856 : if (!bzero_first && (pass & 2) != 0)
4214 : 642578 : continue;
4215 : 1352556 : cnt[pass] = split_group (group, (pass & 1) != 0,
4216 : 676278 : allow_unaligned_load, (pass & 2) != 0,
4217 : : NULL, NULL, NULL);
4218 : 676278 : if (cnt[pass] < cnt[pass_min])
4219 : 1318856 : pass_min = pass;
4220 : : }
4221 : 329714 : if ((pass_min & 1) == 0)
4222 : 326088 : allow_unaligned_store = false;
4223 : 329714 : if ((pass_min & 2) == 0)
4224 : 328341 : bzero_first = false;
4225 : : }
4226 : :
4227 : 329714 : auto_vec<class split_store *, 32> split_stores;
4228 : 329714 : split_store *split_store;
4229 : 329714 : unsigned total_orig, total_new, i;
4230 : 329714 : split_group (group, allow_unaligned_store, allow_unaligned_load, bzero_first,
4231 : : &split_stores, &total_orig, &total_new);
4232 : :
4233 : : /* Determine if there is a clobber covering the whole group at the start,
4234 : : followed by proposed split stores that cover the whole group. In that
4235 : : case, prefer the transformation even if
4236 : : split_stores.length () == orig_num_stmts. */
4237 : 329714 : bool clobber_first = false;
4238 : 329714 : if (num_clobber_stmts
4239 : 43439 : && gimple_clobber_p (group->stores[0]->stmt)
4240 : 38825 : && group->start == group->stores[0]->bitpos
4241 : 38825 : && group->width == group->stores[0]->bitsize
4242 : 36455 : && (group->start % BITS_PER_UNIT) == 0
4243 : 366169 : && (group->width % BITS_PER_UNIT) == 0)
4244 : : {
4245 : 36455 : clobber_first = true;
4246 : 36455 : unsigned HOST_WIDE_INT pos = group->start / BITS_PER_UNIT;
4247 : 89774 : FOR_EACH_VEC_ELT (split_stores, i, split_store)
4248 : 60738 : if (split_store->bytepos != pos)
4249 : : {
4250 : : clobber_first = false;
4251 : : break;
4252 : : }
4253 : : else
4254 : 53319 : pos += split_store->size / BITS_PER_UNIT;
4255 : 36455 : if (pos != (group->start + group->width) / BITS_PER_UNIT)
4256 : 315129 : clobber_first = false;
4257 : : }
4258 : :
4259 : 659428 : if (split_stores.length () >= orig_num_stmts + clobber_first)
4260 : : {
4261 : :
4262 : : /* We didn't manage to reduce the number of statements. Bail out. */
4263 : 241576 : if (dump_file && (dump_flags & TDF_DETAILS))
4264 : 2 : fprintf (dump_file, "Exceeded original number of stmts (%u)."
4265 : : " Not profitable to emit new sequence.\n",
4266 : : orig_num_stmts);
4267 : 834000 : FOR_EACH_VEC_ELT (split_stores, i, split_store)
4268 : 1184848 : delete split_store;
4269 : : return false;
4270 : : }
4271 : 88138 : if (total_orig <= total_new)
4272 : : {
4273 : : /* If number of estimated new statements is above estimated original
4274 : : statements, bail out too. */
4275 : 2476 : if (dump_file && (dump_flags & TDF_DETAILS))
4276 : 0 : fprintf (dump_file, "Estimated number of original stmts (%u)"
4277 : : " not larger than estimated number of new"
4278 : : " stmts (%u).\n",
4279 : : total_orig, total_new);
4280 : 5265 : FOR_EACH_VEC_ELT (split_stores, i, split_store)
4281 : 5578 : delete split_store;
4282 : : return false;
4283 : : }
4284 : 85662 : if (group->stores[0]->rhs_code == INTEGER_CST)
4285 : : {
4286 : 179093 : bool all_orig = true;
4287 : 179093 : FOR_EACH_VEC_ELT (split_stores, i, split_store)
4288 : 165983 : if (!split_store->orig)
4289 : : {
4290 : : all_orig = false;
4291 : : break;
4292 : : }
4293 : 82512 : if (all_orig)
4294 : : {
4295 : : unsigned int cnt = split_stores.length ();
4296 : : store_immediate_info *store;
4297 : 48674 : FOR_EACH_VEC_ELT (group->stores, i, store)
4298 : 35564 : if (gimple_clobber_p (store->stmt))
4299 : 14517 : ++cnt;
4300 : : /* Punt if we wouldn't make any real changes, i.e. keep all
4301 : : orig stmts + all clobbers. */
4302 : 13110 : if (cnt == group->stores.length ())
4303 : : {
4304 : 13018 : if (dump_file && (dump_flags & TDF_DETAILS))
4305 : 0 : fprintf (dump_file, "Exceeded original number of stmts (%u)."
4306 : : " Not profitable to emit new sequence.\n",
4307 : : orig_num_stmts);
4308 : 33861 : FOR_EACH_VEC_ELT (split_stores, i, split_store)
4309 : 41686 : delete split_store;
4310 : 257070 : return false;
4311 : : }
4312 : : }
4313 : : }
4314 : :
4315 : 72644 : gimple_stmt_iterator last_gsi = gsi_for_stmt (group->last_stmt);
4316 : 72644 : gimple_seq seq = NULL;
4317 : 72644 : tree last_vdef, new_vuse;
4318 : 72644 : last_vdef = gimple_vdef (group->last_stmt);
4319 : 72644 : new_vuse = gimple_vuse (group->last_stmt);
4320 : 72644 : tree bswap_res = NULL_TREE;
4321 : :
4322 : : /* Clobbers are not removed. */
4323 : 72644 : if (gimple_clobber_p (group->last_stmt))
4324 : : {
4325 : 777 : new_vuse = make_ssa_name (gimple_vop (cfun), group->last_stmt);
4326 : 777 : gimple_set_vdef (group->last_stmt, new_vuse);
4327 : : }
4328 : :
4329 : 72644 : if (group->stores[0]->rhs_code == LROTATE_EXPR
4330 : 72644 : || group->stores[0]->rhs_code == NOP_EXPR)
4331 : : {
4332 : 607 : tree fndecl = NULL_TREE, bswap_type = NULL_TREE, load_type;
4333 : 607 : gimple *ins_stmt = group->stores[0]->ins_stmt;
4334 : 607 : struct symbolic_number *n = &group->stores[0]->n;
4335 : 607 : bool bswap = group->stores[0]->rhs_code == LROTATE_EXPR;
4336 : :
4337 : 607 : switch (n->range)
4338 : : {
4339 : 378 : case 16:
4340 : 378 : load_type = bswap_type = uint16_type_node;
4341 : 378 : break;
4342 : 85 : case 32:
4343 : 85 : load_type = uint32_type_node;
4344 : 85 : if (bswap)
4345 : : {
4346 : 77 : fndecl = builtin_decl_explicit (BUILT_IN_BSWAP32);
4347 : 77 : bswap_type = TREE_VALUE (TYPE_ARG_TYPES (TREE_TYPE (fndecl)));
4348 : : }
4349 : : break;
4350 : 144 : case 64:
4351 : 144 : load_type = uint64_type_node;
4352 : 144 : if (bswap)
4353 : : {
4354 : 41 : fndecl = builtin_decl_explicit (BUILT_IN_BSWAP64);
4355 : 41 : bswap_type = TREE_VALUE (TYPE_ARG_TYPES (TREE_TYPE (fndecl)));
4356 : : }
4357 : : break;
4358 : 0 : default:
4359 : 0 : gcc_unreachable ();
4360 : : }
4361 : :
4362 : : /* If the loads have each vuse of the corresponding store,
4363 : : we've checked the aliasing already in try_coalesce_bswap and
4364 : : we want to sink the need load into seq. So need to use new_vuse
4365 : : on the load. */
4366 : 607 : if (n->base_addr)
4367 : : {
4368 : 358 : if (n->vuse == NULL)
4369 : : {
4370 : 27 : n->vuse = new_vuse;
4371 : 27 : ins_stmt = NULL;
4372 : : }
4373 : : else
4374 : : /* Update vuse in case it has changed by output_merged_stores. */
4375 : 662 : n->vuse = gimple_vuse (ins_stmt);
4376 : : }
4377 : 607 : bswap_res = bswap_replace (gsi_start (seq), ins_stmt, fndecl,
4378 : : bswap_type, load_type, n, bswap,
4379 : : ~(uint64_t) 0, 0);
4380 : 607 : gcc_assert (bswap_res);
4381 : : }
4382 : :
4383 : 72644 : gimple *stmt = NULL;
4384 : 145288 : auto_vec<gimple *, 32> orig_stmts;
4385 : 72644 : gimple_seq this_seq;
4386 : 72644 : tree addr = force_gimple_operand_1 (unshare_expr (base_addr), &this_seq,
4387 : : is_gimple_mem_ref_addr, NULL_TREE);
4388 : 72644 : gimple_seq_add_seq_without_update (&seq, this_seq);
4389 : :
4390 : 72644 : tree load_addr[2] = { NULL_TREE, NULL_TREE };
4391 : 72644 : gimple_seq load_seq[2] = { NULL, NULL };
4392 : 72644 : gimple_stmt_iterator load_gsi[2] = { gsi_none (), gsi_none () };
4393 : 217932 : for (int j = 0; j < 2; ++j)
4394 : : {
4395 : 145288 : store_operand_info &op = group->stores[0]->ops[j];
4396 : 145288 : if (op.base_addr == NULL_TREE)
4397 : 144265 : continue;
4398 : :
4399 : 1023 : store_immediate_info *infol = group->stores.last ();
4400 : 3069 : if (gimple_vuse (op.stmt) == gimple_vuse (infol->ops[j].stmt))
4401 : : {
4402 : : /* We can't pick the location randomly; while we've verified
4403 : : all the loads have the same vuse, they can be still in different
4404 : : basic blocks and we need to pick the one from the last bb:
4405 : : int x = q[0];
4406 : : if (x == N) return;
4407 : : int y = q[1];
4408 : : p[0] = x;
4409 : : p[1] = y;
4410 : : otherwise if we put the wider load at the q[0] load, we might
4411 : : segfault if q[1] is not mapped. */
4412 : 729 : basic_block bb = gimple_bb (op.stmt);
4413 : 729 : gimple *ostmt = op.stmt;
4414 : 729 : store_immediate_info *info;
4415 : 4000 : FOR_EACH_VEC_ELT (group->stores, i, info)
4416 : : {
4417 : 3271 : gimple *tstmt = info->ops[j].stmt;
4418 : 3271 : basic_block tbb = gimple_bb (tstmt);
4419 : 3271 : if (dominated_by_p (CDI_DOMINATORS, tbb, bb))
4420 : : {
4421 : 3219 : ostmt = tstmt;
4422 : 3219 : bb = tbb;
4423 : : }
4424 : : }
4425 : 729 : load_gsi[j] = gsi_for_stmt (ostmt);
4426 : 729 : load_addr[j]
4427 : 729 : = force_gimple_operand_1 (unshare_expr (op.base_addr),
4428 : : &load_seq[j], is_gimple_mem_ref_addr,
4429 : : NULL_TREE);
4430 : : }
4431 : 294 : else if (operand_equal_p (base_addr, op.base_addr, 0))
4432 : 24 : load_addr[j] = addr;
4433 : : else
4434 : : {
4435 : 270 : load_addr[j]
4436 : 270 : = force_gimple_operand_1 (unshare_expr (op.base_addr),
4437 : : &this_seq, is_gimple_mem_ref_addr,
4438 : : NULL_TREE);
4439 : 270 : gimple_seq_add_seq_without_update (&seq, this_seq);
4440 : : }
4441 : : }
4442 : :
4443 : 340434 : FOR_EACH_VEC_ELT (split_stores, i, split_store)
4444 : : {
4445 : 267790 : const unsigned HOST_WIDE_INT try_size = split_store->size;
4446 : 267790 : const unsigned HOST_WIDE_INT try_pos = split_store->bytepos;
4447 : 267790 : const unsigned HOST_WIDE_INT try_bitpos = try_pos * BITS_PER_UNIT;
4448 : 267790 : const unsigned HOST_WIDE_INT try_align = split_store->align;
4449 : 267790 : const unsigned HOST_WIDE_INT try_offset = try_pos - start_byte_pos;
4450 : 267790 : tree dest, src;
4451 : 267790 : location_t loc;
4452 : :
4453 : 267790 : if (split_store->orig)
4454 : : {
4455 : : /* If there is just a single non-clobber constituent store
4456 : : which covers the whole area, just reuse the lhs and rhs. */
4457 : 204198 : gimple *orig_stmt = NULL;
4458 : : store_immediate_info *store;
4459 : : unsigned int j;
4460 : 204198 : FOR_EACH_VEC_ELT (split_store->orig_stores, j, store)
4461 : 204198 : if (!gimple_clobber_p (store->stmt))
4462 : : {
4463 : : orig_stmt = store->stmt;
4464 : : break;
4465 : : }
4466 : 187918 : dest = gimple_assign_lhs (orig_stmt);
4467 : 187918 : src = gimple_assign_rhs1 (orig_stmt);
4468 : 187918 : loc = gimple_location (orig_stmt);
4469 : : }
4470 : : else
4471 : : {
4472 : : store_immediate_info *info;
4473 : : unsigned short clique, base;
4474 : : unsigned int k;
4475 : 277426 : FOR_EACH_VEC_ELT (split_store->orig_stores, k, info)
4476 : 197554 : orig_stmts.safe_push (info->stmt);
4477 : 79872 : tree offset_type
4478 : 79872 : = get_alias_type_for_stmts (orig_stmts, false, &clique, &base);
4479 : 79872 : tree dest_type;
4480 : 79872 : loc = get_location_for_stmts (orig_stmts);
4481 : 79872 : orig_stmts.truncate (0);
4482 : :
4483 : 79872 : if (group->string_concatenation)
4484 : 67 : dest_type
4485 : 67 : = build_array_type_nelts (char_type_node,
4486 : 67 : try_size / BITS_PER_UNIT);
4487 : : else
4488 : : {
4489 : 79805 : dest_type = build_nonstandard_integer_type (try_size, UNSIGNED);
4490 : 79805 : dest_type = build_aligned_type (dest_type, try_align);
4491 : : }
4492 : 79872 : dest = fold_build2 (MEM_REF, dest_type, addr,
4493 : : build_int_cst (offset_type, try_pos));
4494 : 79872 : if (TREE_CODE (dest) == MEM_REF)
4495 : : {
4496 : 79872 : MR_DEPENDENCE_CLIQUE (dest) = clique;
4497 : 79872 : MR_DEPENDENCE_BASE (dest) = base;
4498 : : }
4499 : :
4500 : 79872 : tree mask;
4501 : 79872 : if (bswap_res || group->string_concatenation)
4502 : 674 : mask = integer_zero_node;
4503 : : else
4504 : 79198 : mask = native_interpret_expr (dest_type,
4505 : 79198 : group->mask + try_offset,
4506 : 79198 : group->buf_size);
4507 : :
4508 : 79872 : tree ops[2];
4509 : 159786 : for (int j = 0;
4510 : 319446 : j < 1 + (split_store->orig_stores[0]->ops[1].val != NULL_TREE);
4511 : : ++j)
4512 : : {
4513 : 79914 : store_operand_info &op = split_store->orig_stores[0]->ops[j];
4514 : 79914 : if (bswap_res)
4515 : 607 : ops[j] = bswap_res;
4516 : 79307 : else if (group->string_concatenation)
4517 : : {
4518 : 134 : ops[j] = build_string (try_size / BITS_PER_UNIT,
4519 : 67 : (const char *) group->val + try_offset);
4520 : 67 : TREE_TYPE (ops[j]) = dest_type;
4521 : : }
4522 : 79240 : else if (op.base_addr)
4523 : : {
4524 : 4856 : FOR_EACH_VEC_ELT (split_store->orig_stores, k, info)
4525 : 3521 : orig_stmts.safe_push (info->ops[j].stmt);
4526 : :
4527 : 1335 : offset_type = get_alias_type_for_stmts (orig_stmts, true,
4528 : : &clique, &base);
4529 : 1335 : location_t load_loc = get_location_for_stmts (orig_stmts);
4530 : 1335 : orig_stmts.truncate (0);
4531 : :
4532 : 1335 : unsigned HOST_WIDE_INT load_align = group->load_align[j];
4533 : 1335 : unsigned HOST_WIDE_INT align_bitpos
4534 : 1335 : = known_alignment (try_bitpos
4535 : 1335 : - split_store->orig_stores[0]->bitpos
4536 : 1335 : + op.bitpos);
4537 : 1335 : if (align_bitpos & (load_align - 1))
4538 : 572 : load_align = least_bit_hwi (align_bitpos);
4539 : :
4540 : 1335 : tree load_int_type
4541 : 1335 : = build_nonstandard_integer_type (try_size, UNSIGNED);
4542 : 1335 : load_int_type
4543 : 1335 : = build_aligned_type (load_int_type, load_align);
4544 : :
4545 : 1335 : poly_uint64 load_pos
4546 : 1335 : = exact_div (try_bitpos
4547 : 1335 : - split_store->orig_stores[0]->bitpos
4548 : 1335 : + op.bitpos,
4549 : : BITS_PER_UNIT);
4550 : 1335 : ops[j] = fold_build2 (MEM_REF, load_int_type, load_addr[j],
4551 : : build_int_cst (offset_type, load_pos));
4552 : 1335 : if (TREE_CODE (ops[j]) == MEM_REF)
4553 : : {
4554 : 1335 : MR_DEPENDENCE_CLIQUE (ops[j]) = clique;
4555 : 1335 : MR_DEPENDENCE_BASE (ops[j]) = base;
4556 : : }
4557 : 1335 : if (!integer_zerop (mask))
4558 : : {
4559 : : /* The load might load some bits (that will be masked
4560 : : off later on) uninitialized, avoid -W*uninitialized
4561 : : warnings in that case. */
4562 : 40 : suppress_warning (ops[j], OPT_Wuninitialized);
4563 : : }
4564 : :
4565 : 1335 : stmt = gimple_build_assign (make_ssa_name (dest_type), ops[j]);
4566 : 1335 : gimple_set_location (stmt, load_loc);
4567 : 1335 : if (gsi_bb (load_gsi[j]))
4568 : : {
4569 : 1916 : gimple_set_vuse (stmt, gimple_vuse (op.stmt));
4570 : 958 : gimple_seq_add_stmt_without_update (&load_seq[j], stmt);
4571 : : }
4572 : : else
4573 : : {
4574 : 377 : gimple_set_vuse (stmt, new_vuse);
4575 : 377 : gimple_seq_add_stmt_without_update (&seq, stmt);
4576 : : }
4577 : 1335 : ops[j] = gimple_assign_lhs (stmt);
4578 : 1335 : tree xor_mask;
4579 : 1335 : enum tree_code inv_op
4580 : 1335 : = invert_op (split_store, j, dest_type, xor_mask);
4581 : 1335 : if (inv_op != NOP_EXPR)
4582 : : {
4583 : 17 : stmt = gimple_build_assign (make_ssa_name (dest_type),
4584 : : inv_op, ops[j], xor_mask);
4585 : 17 : gimple_set_location (stmt, load_loc);
4586 : 17 : ops[j] = gimple_assign_lhs (stmt);
4587 : :
4588 : 17 : if (gsi_bb (load_gsi[j]))
4589 : 7 : gimple_seq_add_stmt_without_update (&load_seq[j],
4590 : : stmt);
4591 : : else
4592 : 10 : gimple_seq_add_stmt_without_update (&seq, stmt);
4593 : : }
4594 : : }
4595 : : else
4596 : 77905 : ops[j] = native_interpret_expr (dest_type,
4597 : 77905 : group->val + try_offset,
4598 : 77905 : group->buf_size);
4599 : : }
4600 : :
4601 : 79872 : switch (split_store->orig_stores[0]->rhs_code)
4602 : : {
4603 : : case BIT_AND_EXPR:
4604 : : case BIT_IOR_EXPR:
4605 : : case BIT_XOR_EXPR:
4606 : 200 : FOR_EACH_VEC_ELT (split_store->orig_stores, k, info)
4607 : : {
4608 : 158 : tree rhs1 = gimple_assign_rhs1 (info->stmt);
4609 : 158 : orig_stmts.safe_push (SSA_NAME_DEF_STMT (rhs1));
4610 : : }
4611 : 42 : location_t bit_loc;
4612 : 42 : bit_loc = get_location_for_stmts (orig_stmts);
4613 : 42 : orig_stmts.truncate (0);
4614 : :
4615 : 42 : stmt
4616 : 42 : = gimple_build_assign (make_ssa_name (dest_type),
4617 : 42 : split_store->orig_stores[0]->rhs_code,
4618 : : ops[0], ops[1]);
4619 : 42 : gimple_set_location (stmt, bit_loc);
4620 : : /* If there is just one load and there is a separate
4621 : : load_seq[0], emit the bitwise op right after it. */
4622 : 42 : if (load_addr[1] == NULL_TREE && gsi_bb (load_gsi[0]))
4623 : 2 : gimple_seq_add_stmt_without_update (&load_seq[0], stmt);
4624 : : /* Otherwise, if at least one load is in seq, we need to
4625 : : emit the bitwise op right before the store. If there
4626 : : are two loads and are emitted somewhere else, it would
4627 : : be better to emit the bitwise op as early as possible;
4628 : : we don't track where that would be possible right now
4629 : : though. */
4630 : : else
4631 : 40 : gimple_seq_add_stmt_without_update (&seq, stmt);
4632 : 42 : src = gimple_assign_lhs (stmt);
4633 : 42 : tree xor_mask;
4634 : 42 : enum tree_code inv_op;
4635 : 42 : inv_op = invert_op (split_store, 2, dest_type, xor_mask);
4636 : 42 : if (inv_op != NOP_EXPR)
4637 : : {
4638 : 2 : stmt = gimple_build_assign (make_ssa_name (dest_type),
4639 : : inv_op, src, xor_mask);
4640 : 2 : gimple_set_location (stmt, bit_loc);
4641 : 2 : if (load_addr[1] == NULL_TREE && gsi_bb (load_gsi[0]))
4642 : 0 : gimple_seq_add_stmt_without_update (&load_seq[0], stmt);
4643 : : else
4644 : 2 : gimple_seq_add_stmt_without_update (&seq, stmt);
4645 : 2 : src = gimple_assign_lhs (stmt);
4646 : : }
4647 : : break;
4648 : 607 : case LROTATE_EXPR:
4649 : 607 : case NOP_EXPR:
4650 : 607 : src = ops[0];
4651 : 607 : if (!is_gimple_val (src))
4652 : : {
4653 : 0 : stmt = gimple_build_assign (make_ssa_name (TREE_TYPE (src)),
4654 : : src);
4655 : 0 : gimple_seq_add_stmt_without_update (&seq, stmt);
4656 : 0 : src = gimple_assign_lhs (stmt);
4657 : : }
4658 : 607 : if (!useless_type_conversion_p (dest_type, TREE_TYPE (src)))
4659 : : {
4660 : 58 : stmt = gimple_build_assign (make_ssa_name (dest_type),
4661 : : NOP_EXPR, src);
4662 : 58 : gimple_seq_add_stmt_without_update (&seq, stmt);
4663 : 58 : src = gimple_assign_lhs (stmt);
4664 : : }
4665 : 607 : inv_op = invert_op (split_store, 2, dest_type, xor_mask);
4666 : 607 : if (inv_op != NOP_EXPR)
4667 : : {
4668 : 6 : stmt = gimple_build_assign (make_ssa_name (dest_type),
4669 : : inv_op, src, xor_mask);
4670 : 6 : gimple_set_location (stmt, loc);
4671 : 6 : gimple_seq_add_stmt_without_update (&seq, stmt);
4672 : 6 : src = gimple_assign_lhs (stmt);
4673 : : }
4674 : : break;
4675 : 79223 : default:
4676 : 79223 : src = ops[0];
4677 : 79223 : break;
4678 : : }
4679 : :
4680 : : /* If bit insertion is required, we use the source as an accumulator
4681 : : into which the successive bit-field values are manually inserted.
4682 : : FIXME: perhaps use BIT_INSERT_EXPR instead in some cases? */
4683 : 79872 : if (group->bit_insertion)
4684 : 13339 : FOR_EACH_VEC_ELT (split_store->orig_stores, k, info)
4685 : 10132 : if (info->rhs_code == BIT_INSERT_EXPR
4686 : 6537 : && info->bitpos < try_bitpos + try_size
4687 : 6537 : && info->bitpos + info->bitsize > try_bitpos)
4688 : : {
4689 : : /* Mask, truncate, convert to final type, shift and ior into
4690 : : the accumulator. Note that every step can be a no-op. */
4691 : 6537 : const HOST_WIDE_INT start_gap = info->bitpos - try_bitpos;
4692 : 6537 : const HOST_WIDE_INT end_gap
4693 : 6537 : = (try_bitpos + try_size) - (info->bitpos + info->bitsize);
4694 : 6537 : tree tem = info->ops[0].val;
4695 : 6537 : if (!INTEGRAL_TYPE_P (TREE_TYPE (tem)))
4696 : : {
4697 : 0 : const unsigned HOST_WIDE_INT size
4698 : 0 : = tree_to_uhwi (TYPE_SIZE (TREE_TYPE (tem)));
4699 : 0 : tree integer_type
4700 : 0 : = build_nonstandard_integer_type (size, UNSIGNED);
4701 : 0 : tem = gimple_build (&seq, loc, VIEW_CONVERT_EXPR,
4702 : : integer_type, tem);
4703 : : }
4704 : 6537 : if (TYPE_PRECISION (TREE_TYPE (tem)) <= info->bitsize)
4705 : : {
4706 : 4136 : tree bitfield_type
4707 : 4136 : = build_nonstandard_integer_type (info->bitsize,
4708 : : UNSIGNED);
4709 : 4136 : tem = gimple_convert (&seq, loc, bitfield_type, tem);
4710 : : }
4711 : 2401 : else if ((BYTES_BIG_ENDIAN ? start_gap : end_gap) > 0)
4712 : : {
4713 : 1298 : wide_int imask
4714 : : = wi::mask (info->bitsize, false,
4715 : 1298 : TYPE_PRECISION (TREE_TYPE (tem)));
4716 : 3894 : tem = gimple_build (&seq, loc,
4717 : 1298 : BIT_AND_EXPR, TREE_TYPE (tem), tem,
4718 : 2596 : wide_int_to_tree (TREE_TYPE (tem),
4719 : : imask));
4720 : 1298 : }
4721 : 6537 : const HOST_WIDE_INT shift
4722 : : = (BYTES_BIG_ENDIAN ? end_gap : start_gap);
4723 : 6537 : if (shift < 0)
4724 : 4 : tem = gimple_build (&seq, loc,
4725 : 4 : RSHIFT_EXPR, TREE_TYPE (tem), tem,
4726 : 4 : build_int_cst (NULL_TREE, -shift));
4727 : 6537 : tem = gimple_convert (&seq, loc, dest_type, tem);
4728 : 6537 : if (shift > 0)
4729 : 5578 : tem = gimple_build (&seq, loc,
4730 : : LSHIFT_EXPR, dest_type, tem,
4731 : 5578 : build_int_cst (NULL_TREE, shift));
4732 : 6537 : src = gimple_build (&seq, loc,
4733 : : BIT_IOR_EXPR, dest_type, tem, src);
4734 : : }
4735 : :
4736 : 79872 : if (!integer_zerop (mask))
4737 : : {
4738 : 1548 : tree tem = make_ssa_name (dest_type);
4739 : 1548 : tree load_src = unshare_expr (dest);
4740 : : /* The load might load some or all bits uninitialized,
4741 : : avoid -W*uninitialized warnings in that case.
4742 : : As optimization, it would be nice if all the bits are
4743 : : provably uninitialized (no stores at all yet or previous
4744 : : store a CLOBBER) we'd optimize away the load and replace
4745 : : it e.g. with 0. */
4746 : 1548 : suppress_warning (load_src, OPT_Wuninitialized);
4747 : 1548 : stmt = gimple_build_assign (tem, load_src);
4748 : 1548 : gimple_set_location (stmt, loc);
4749 : 1548 : gimple_set_vuse (stmt, new_vuse);
4750 : 1548 : gimple_seq_add_stmt_without_update (&seq, stmt);
4751 : :
4752 : : /* FIXME: If there is a single chunk of zero bits in mask,
4753 : : perhaps use BIT_INSERT_EXPR instead? */
4754 : 1548 : stmt = gimple_build_assign (make_ssa_name (dest_type),
4755 : : BIT_AND_EXPR, tem, mask);
4756 : 1548 : gimple_set_location (stmt, loc);
4757 : 1548 : gimple_seq_add_stmt_without_update (&seq, stmt);
4758 : 1548 : tem = gimple_assign_lhs (stmt);
4759 : :
4760 : 1548 : if (TREE_CODE (src) == INTEGER_CST)
4761 : 639 : src = wide_int_to_tree (dest_type,
4762 : 639 : wi::bit_and_not (wi::to_wide (src),
4763 : 1278 : wi::to_wide (mask)));
4764 : : else
4765 : : {
4766 : 909 : tree nmask
4767 : 909 : = wide_int_to_tree (dest_type,
4768 : 909 : wi::bit_not (wi::to_wide (mask)));
4769 : 909 : stmt = gimple_build_assign (make_ssa_name (dest_type),
4770 : : BIT_AND_EXPR, src, nmask);
4771 : 909 : gimple_set_location (stmt, loc);
4772 : 909 : gimple_seq_add_stmt_without_update (&seq, stmt);
4773 : 909 : src = gimple_assign_lhs (stmt);
4774 : : }
4775 : 1548 : stmt = gimple_build_assign (make_ssa_name (dest_type),
4776 : : BIT_IOR_EXPR, tem, src);
4777 : 1548 : gimple_set_location (stmt, loc);
4778 : 1548 : gimple_seq_add_stmt_without_update (&seq, stmt);
4779 : 1548 : src = gimple_assign_lhs (stmt);
4780 : : }
4781 : : }
4782 : :
4783 : 267790 : stmt = gimple_build_assign (dest, src);
4784 : 267790 : gimple_set_location (stmt, loc);
4785 : 267790 : gimple_set_vuse (stmt, new_vuse);
4786 : 267790 : gimple_seq_add_stmt_without_update (&seq, stmt);
4787 : :
4788 : 267790 : if (group->lp_nr && stmt_could_throw_p (cfun, stmt))
4789 : 60 : add_stmt_to_eh_lp (stmt, group->lp_nr);
4790 : :
4791 : 267790 : tree new_vdef;
4792 : 535580 : if (i < split_stores.length () - 1)
4793 : 195146 : new_vdef = make_ssa_name (gimple_vop (cfun), stmt);
4794 : : else
4795 : : new_vdef = last_vdef;
4796 : :
4797 : 267790 : gimple_set_vdef (stmt, new_vdef);
4798 : 267790 : SSA_NAME_DEF_STMT (new_vdef) = stmt;
4799 : 267790 : new_vuse = new_vdef;
4800 : : }
4801 : :
4802 : 340434 : FOR_EACH_VEC_ELT (split_stores, i, split_store)
4803 : 535580 : delete split_store;
4804 : :
4805 : 72644 : gcc_assert (seq);
4806 : 72644 : if (dump_file)
4807 : : {
4808 : 192 : fprintf (dump_file,
4809 : : "New sequence of %u stores to replace old one of %u stores\n",
4810 : : split_stores.length (), orig_num_stmts);
4811 : 96 : if (dump_flags & TDF_DETAILS)
4812 : 23 : print_gimple_seq (dump_file, seq, 0, TDF_VOPS | TDF_MEMSYMS);
4813 : : }
4814 : :
4815 : 72644 : if (gimple_clobber_p (group->last_stmt))
4816 : 777 : update_stmt (group->last_stmt);
4817 : :
4818 : 72644 : if (group->lp_nr > 0)
4819 : : {
4820 : : /* We're going to insert a sequence of (potentially) throwing stores
4821 : : into an active EH region. This means that we're going to create
4822 : : new basic blocks with EH edges pointing to the post landing pad
4823 : : and, therefore, to have to update its PHI nodes, if any. For the
4824 : : virtual PHI node, we're going to use the VDEFs created above, but
4825 : : for the other nodes, we need to record the original reaching defs. */
4826 : 51 : eh_landing_pad lp = get_eh_landing_pad_from_number (group->lp_nr);
4827 : 51 : basic_block lp_bb = label_to_block (cfun, lp->post_landing_pad);
4828 : 51 : basic_block last_bb = gimple_bb (group->last_stmt);
4829 : 51 : edge last_edge = find_edge (last_bb, lp_bb);
4830 : 51 : auto_vec<tree, 16> last_defs;
4831 : 51 : gphi_iterator gpi;
4832 : 94 : for (gpi = gsi_start_phis (lp_bb); !gsi_end_p (gpi); gsi_next (&gpi))
4833 : : {
4834 : 43 : gphi *phi = gpi.phi ();
4835 : 43 : tree last_def;
4836 : 86 : if (virtual_operand_p (gimple_phi_result (phi)))
4837 : 43 : last_def = NULL_TREE;
4838 : : else
4839 : 0 : last_def = gimple_phi_arg_def (phi, last_edge->dest_idx);
4840 : 43 : last_defs.safe_push (last_def);
4841 : : }
4842 : :
4843 : : /* Do the insertion. Then, if new basic blocks have been created in the
4844 : : process, rewind the chain of VDEFs create above to walk the new basic
4845 : : blocks and update the corresponding arguments of the PHI nodes. */
4846 : 51 : update_modified_stmts (seq);
4847 : 51 : if (gimple_find_sub_bbs (seq, &last_gsi))
4848 : 111 : while (last_vdef != gimple_vuse (group->last_stmt))
4849 : : {
4850 : 60 : gimple *stmt = SSA_NAME_DEF_STMT (last_vdef);
4851 : 60 : if (stmt_could_throw_p (cfun, stmt))
4852 : : {
4853 : 60 : edge new_edge = find_edge (gimple_bb (stmt), lp_bb);
4854 : 60 : unsigned int i;
4855 : 60 : for (gpi = gsi_start_phis (lp_bb), i = 0;
4856 : 110 : !gsi_end_p (gpi);
4857 : 50 : gsi_next (&gpi), i++)
4858 : : {
4859 : 50 : gphi *phi = gpi.phi ();
4860 : 50 : tree new_def;
4861 : 100 : if (virtual_operand_p (gimple_phi_result (phi)))
4862 : : new_def = last_vdef;
4863 : : else
4864 : 0 : new_def = last_defs[i];
4865 : 50 : add_phi_arg (phi, new_def, new_edge, UNKNOWN_LOCATION);
4866 : : }
4867 : : }
4868 : 171 : last_vdef = gimple_vuse (stmt);
4869 : : }
4870 : 51 : }
4871 : : else
4872 : 72593 : gsi_insert_seq_after (&last_gsi, seq, GSI_SAME_STMT);
4873 : :
4874 : 217932 : for (int j = 0; j < 2; ++j)
4875 : 145288 : if (load_seq[j])
4876 : 729 : gsi_insert_seq_after (&load_gsi[j], load_seq[j], GSI_SAME_STMT);
4877 : :
4878 : 72644 : return true;
4879 : 329714 : }
4880 : :
4881 : : /* Process the merged_store_group objects created in the coalescing phase.
4882 : : The stores are all against the base object BASE.
4883 : : Try to output the widened stores and delete the original statements if
4884 : : successful. Return true iff any changes were made. */
4885 : :
4886 : : bool
4887 : 422098 : imm_store_chain_info::output_merged_stores ()
4888 : : {
4889 : 422098 : unsigned int i;
4890 : 422098 : merged_store_group *merged_store;
4891 : 422098 : bool ret = false;
4892 : 873506 : FOR_EACH_VEC_ELT (m_merged_store_groups, i, merged_store)
4893 : : {
4894 : 451408 : if (dbg_cnt (store_merging)
4895 : 451408 : && output_merged_store (merged_store))
4896 : : {
4897 : : unsigned int j;
4898 : : store_immediate_info *store;
4899 : 907446 : FOR_EACH_VEC_ELT (merged_store->stores, j, store)
4900 : : {
4901 : 383394 : gimple *stmt = store->stmt;
4902 : 383394 : gimple_stmt_iterator gsi = gsi_for_stmt (stmt);
4903 : : /* Don't remove clobbers, they are still useful even if
4904 : : everything is overwritten afterwards. */
4905 : 383394 : if (gimple_clobber_p (stmt))
4906 : 13523 : continue;
4907 : 369871 : gsi_remove (&gsi, true);
4908 : 369871 : if (store->lp_nr)
4909 : 179 : remove_stmt_from_eh_lp (stmt);
4910 : 369871 : if (stmt != merged_store->last_stmt)
4911 : : {
4912 : 298004 : unlink_stmt_vdef (stmt);
4913 : 298004 : release_defs (stmt);
4914 : : }
4915 : : }
4916 : : ret = true;
4917 : : }
4918 : : }
4919 : 422098 : if (ret && dump_file)
4920 : 96 : fprintf (dump_file, "Merging successful!\n");
4921 : :
4922 : 422098 : return ret;
4923 : : }
4924 : :
4925 : : /* Coalesce the store_immediate_info objects recorded against the base object
4926 : : BASE in the first phase and output them.
4927 : : Delete the allocated structures.
4928 : : Return true if any changes were made. */
4929 : :
4930 : : bool
4931 : 1862062 : imm_store_chain_info::terminate_and_process_chain ()
4932 : : {
4933 : 1862062 : if (dump_file && (dump_flags & TDF_DETAILS))
4934 : 98 : fprintf (dump_file, "Terminating chain with %u stores\n",
4935 : : m_store_info.length ());
4936 : : /* Process store chain. */
4937 : 1862062 : bool ret = false;
4938 : 1862062 : if (m_store_info.length () > 1)
4939 : : {
4940 : 544522 : ret = coalesce_immediate_stores ();
4941 : 544522 : if (ret)
4942 : 422098 : ret = output_merged_stores ();
4943 : : }
4944 : :
4945 : : /* Delete all the entries we allocated ourselves. */
4946 : 1862062 : store_immediate_info *info;
4947 : 1862062 : unsigned int i;
4948 : 4912649 : FOR_EACH_VEC_ELT (m_store_info, i, info)
4949 : 3050587 : delete info;
4950 : :
4951 : : merged_store_group *merged_info;
4952 : 2313470 : FOR_EACH_VEC_ELT (m_merged_store_groups, i, merged_info)
4953 : 451408 : delete merged_info;
4954 : :
4955 : 1862062 : return ret;
4956 : : }
4957 : :
4958 : : /* Return true iff LHS is a destination potentially interesting for
4959 : : store merging. In practice these are the codes that get_inner_reference
4960 : : can process. */
4961 : :
4962 : : static bool
4963 : 8995054 : lhs_valid_for_store_merging_p (tree lhs)
4964 : : {
4965 : 8995054 : if (DECL_P (lhs))
4966 : : return true;
4967 : :
4968 : 7025371 : switch (TREE_CODE (lhs))
4969 : : {
4970 : : case ARRAY_REF:
4971 : : case ARRAY_RANGE_REF:
4972 : : case BIT_FIELD_REF:
4973 : : case COMPONENT_REF:
4974 : : case MEM_REF:
4975 : : case VIEW_CONVERT_EXPR:
4976 : : return true;
4977 : : default:
4978 : : return false;
4979 : : }
4980 : : }
4981 : :
4982 : : /* Return true if the tree RHS is a constant we want to consider
4983 : : during store merging. In practice accept all codes that
4984 : : native_encode_expr accepts. */
4985 : :
4986 : : static bool
4987 : 4877669 : rhs_valid_for_store_merging_p (tree rhs)
4988 : : {
4989 : 4877669 : unsigned HOST_WIDE_INT size;
4990 : 4877669 : if (TREE_CODE (rhs) == CONSTRUCTOR
4991 : 1061820 : && CONSTRUCTOR_NELTS (rhs) == 0
4992 : 1061820 : && TYPE_SIZE_UNIT (TREE_TYPE (rhs))
4993 : 5939489 : && tree_fits_uhwi_p (TYPE_SIZE_UNIT (TREE_TYPE (rhs))))
4994 : : return true;
4995 : 7631698 : return (GET_MODE_SIZE (TYPE_MODE (TREE_TYPE (rhs))).is_constant (&size)
4996 : 3815849 : && native_encode_expr (rhs, NULL, size) != 0);
4997 : : }
4998 : :
4999 : : /* Adjust *PBITPOS, *PBITREGION_START and *PBITREGION_END by BYTE_OFF bytes
5000 : : and return true on success or false on failure. */
5001 : :
5002 : : static bool
5003 : 967799 : adjust_bit_pos (poly_offset_int byte_off,
5004 : : poly_int64 *pbitpos,
5005 : : poly_uint64 *pbitregion_start,
5006 : : poly_uint64 *pbitregion_end)
5007 : : {
5008 : 967799 : poly_offset_int bit_off = byte_off << LOG2_BITS_PER_UNIT;
5009 : 967799 : bit_off += *pbitpos;
5010 : :
5011 : 967799 : if (known_ge (bit_off, 0) && bit_off.to_shwi (pbitpos))
5012 : : {
5013 : 960678 : if (maybe_ne (*pbitregion_end, 0U))
5014 : : {
5015 : 5957 : bit_off = byte_off << LOG2_BITS_PER_UNIT;
5016 : 5957 : bit_off += *pbitregion_start;
5017 : 5957 : if (bit_off.to_uhwi (pbitregion_start))
5018 : : {
5019 : 5957 : bit_off = byte_off << LOG2_BITS_PER_UNIT;
5020 : 5957 : bit_off += *pbitregion_end;
5021 : 5957 : if (!bit_off.to_uhwi (pbitregion_end))
5022 : 0 : *pbitregion_end = 0;
5023 : : }
5024 : : else
5025 : 0 : *pbitregion_end = 0;
5026 : : }
5027 : 960678 : return true;
5028 : : }
5029 : : else
5030 : 7121 : return false;
5031 : : }
5032 : :
5033 : : /* If MEM is a memory reference usable for store merging (either as
5034 : : store destination or for loads), return the non-NULL base_addr
5035 : : and set *PBITSIZE, *PBITPOS, *PBITREGION_START and *PBITREGION_END.
5036 : : Otherwise return NULL, *PBITPOS should be still valid even for that
5037 : : case. */
5038 : :
5039 : : static tree
5040 : 5450306 : mem_valid_for_store_merging (tree mem, poly_uint64 *pbitsize,
5041 : : poly_uint64 *pbitpos,
5042 : : poly_uint64 *pbitregion_start,
5043 : : poly_uint64 *pbitregion_end)
5044 : : {
5045 : 5450306 : poly_int64 bitsize, bitpos;
5046 : 5450306 : poly_uint64 bitregion_start = 0, bitregion_end = 0;
5047 : 5450306 : machine_mode mode;
5048 : 5450306 : int unsignedp = 0, reversep = 0, volatilep = 0;
5049 : 5450306 : tree offset;
5050 : 5450306 : tree base_addr = get_inner_reference (mem, &bitsize, &bitpos, &offset, &mode,
5051 : : &unsignedp, &reversep, &volatilep);
5052 : 5450306 : *pbitsize = bitsize;
5053 : 5450306 : if (known_le (bitsize, 0))
5054 : : return NULL_TREE;
5055 : :
5056 : 5449118 : if (TREE_CODE (mem) == COMPONENT_REF
5057 : 5449118 : && DECL_BIT_FIELD_TYPE (TREE_OPERAND (mem, 1)))
5058 : : {
5059 : 37384 : get_bit_range (&bitregion_start, &bitregion_end, mem, &bitpos, &offset);
5060 : 37384 : if (maybe_ne (bitregion_end, 0U))
5061 : 37384 : bitregion_end += 1;
5062 : : }
5063 : :
5064 : 5449118 : if (reversep)
5065 : : return NULL_TREE;
5066 : :
5067 : : /* We do not want to rewrite TARGET_MEM_REFs. */
5068 : 5448653 : if (TREE_CODE (base_addr) == TARGET_MEM_REF)
5069 : : return NULL_TREE;
5070 : : /* In some cases get_inner_reference may return a
5071 : : MEM_REF [ptr + byteoffset]. For the purposes of this pass
5072 : : canonicalize the base_addr to MEM_REF [ptr] and take
5073 : : byteoffset into account in the bitpos. This occurs in
5074 : : PR 23684 and this way we can catch more chains. */
5075 : 5410960 : else if (TREE_CODE (base_addr) == MEM_REF)
5076 : : {
5077 : 961412 : if (!adjust_bit_pos (mem_ref_offset (base_addr), &bitpos,
5078 : : &bitregion_start, &bitregion_end))
5079 : : return NULL_TREE;
5080 : 954291 : base_addr = TREE_OPERAND (base_addr, 0);
5081 : : }
5082 : : /* get_inner_reference returns the base object, get at its
5083 : : address now. */
5084 : : else
5085 : : {
5086 : 4449548 : if (maybe_lt (bitpos, 0))
5087 : : return NULL_TREE;
5088 : 4449352 : base_addr = build_fold_addr_expr (base_addr);
5089 : : }
5090 : :
5091 : 5403643 : if (offset)
5092 : : {
5093 : : /* If the access is variable offset then a base decl has to be
5094 : : address-taken to be able to emit pointer-based stores to it.
5095 : : ??? We might be able to get away with re-using the original
5096 : : base up to the first variable part and then wrapping that inside
5097 : : a BIT_FIELD_REF. */
5098 : 35000 : tree base = get_base_address (base_addr);
5099 : 35000 : if (!base || (DECL_P (base) && !TREE_ADDRESSABLE (base)))
5100 : : return NULL_TREE;
5101 : :
5102 : : /* Similarly to above for the base, remove constant from the offset. */
5103 : 35000 : if (TREE_CODE (offset) == PLUS_EXPR
5104 : 6443 : && TREE_CODE (TREE_OPERAND (offset, 1)) == INTEGER_CST
5105 : 41443 : && adjust_bit_pos (wi::to_poly_offset (TREE_OPERAND (offset, 1)),
5106 : : &bitpos, &bitregion_start, &bitregion_end))
5107 : 6387 : offset = TREE_OPERAND (offset, 0);
5108 : :
5109 : 35000 : base_addr = build2 (POINTER_PLUS_EXPR, TREE_TYPE (base_addr),
5110 : : base_addr, offset);
5111 : : }
5112 : :
5113 : 5403643 : if (known_eq (bitregion_end, 0U))
5114 : : {
5115 : 5366457 : bitregion_start = round_down_to_byte_boundary (bitpos);
5116 : 5366457 : bitregion_end = round_up_to_byte_boundary (bitpos + bitsize);
5117 : : }
5118 : :
5119 : 5403643 : *pbitsize = bitsize;
5120 : 5403643 : *pbitpos = bitpos;
5121 : 5403643 : *pbitregion_start = bitregion_start;
5122 : 5403643 : *pbitregion_end = bitregion_end;
5123 : 5403643 : return base_addr;
5124 : : }
5125 : :
5126 : : /* Return true if STMT is a load that can be used for store merging.
5127 : : In that case fill in *OP. BITSIZE, BITPOS, BITREGION_START and
5128 : : BITREGION_END are properties of the corresponding store. */
5129 : :
5130 : : static bool
5131 : 1020722 : handled_load (gimple *stmt, store_operand_info *op,
5132 : : poly_uint64 bitsize, poly_uint64 bitpos,
5133 : : poly_uint64 bitregion_start, poly_uint64 bitregion_end)
5134 : : {
5135 : 1020722 : if (!is_gimple_assign (stmt))
5136 : : return false;
5137 : 1020631 : if (gimple_assign_rhs_code (stmt) == BIT_NOT_EXPR)
5138 : : {
5139 : 1171 : tree rhs1 = gimple_assign_rhs1 (stmt);
5140 : 1171 : if (TREE_CODE (rhs1) == SSA_NAME
5141 : 1171 : && handled_load (SSA_NAME_DEF_STMT (rhs1), op, bitsize, bitpos,
5142 : : bitregion_start, bitregion_end))
5143 : : {
5144 : : /* Don't allow _1 = load; _2 = ~1; _3 = ~_2; which should have
5145 : : been optimized earlier, but if allowed here, would confuse the
5146 : : multiple uses counting. */
5147 : 565 : if (op->bit_not_p)
5148 : : return false;
5149 : 565 : op->bit_not_p = !op->bit_not_p;
5150 : 565 : return true;
5151 : : }
5152 : 606 : return false;
5153 : : }
5154 : 1019460 : if (gimple_vuse (stmt)
5155 : 559934 : && gimple_assign_load_p (stmt)
5156 : 559901 : && !stmt_can_throw_internal (cfun, stmt)
5157 : 1575328 : && !gimple_has_volatile_ops (stmt))
5158 : : {
5159 : 555536 : tree mem = gimple_assign_rhs1 (stmt);
5160 : 555536 : op->base_addr
5161 : 555536 : = mem_valid_for_store_merging (mem, &op->bitsize, &op->bitpos,
5162 : : &op->bitregion_start,
5163 : : &op->bitregion_end);
5164 : 555536 : if (op->base_addr != NULL_TREE
5165 : 515077 : && known_eq (op->bitsize, bitsize)
5166 : 1030147 : && multiple_p (op->bitpos - bitpos, BITS_PER_UNIT)
5167 : 515070 : && known_ge (op->bitpos - op->bitregion_start,
5168 : : bitpos - bitregion_start)
5169 : 1070372 : && known_ge (op->bitregion_end - op->bitpos,
5170 : : bitregion_end - bitpos))
5171 : : {
5172 : 514789 : op->stmt = stmt;
5173 : 514789 : op->val = mem;
5174 : 514789 : op->bit_not_p = false;
5175 : 514789 : return true;
5176 : : }
5177 : : }
5178 : : return false;
5179 : : }
5180 : :
5181 : : /* Return the index number of the landing pad for STMT, if any. */
5182 : :
5183 : : static int
5184 : 3050587 : lp_nr_for_store (gimple *stmt)
5185 : : {
5186 : 3050587 : if (!cfun->can_throw_non_call_exceptions || !cfun->eh)
5187 : : return 0;
5188 : :
5189 : 837227 : if (!stmt_could_throw_p (cfun, stmt))
5190 : : return 0;
5191 : :
5192 : 68338 : return lookup_stmt_eh_lp (stmt);
5193 : : }
5194 : :
5195 : : /* Record the store STMT for store merging optimization if it can be
5196 : : optimized. Return true if any changes were made. */
5197 : :
5198 : : bool
5199 : 4894770 : pass_store_merging::process_store (gimple *stmt)
5200 : : {
5201 : 4894770 : tree lhs = gimple_assign_lhs (stmt);
5202 : 4894770 : tree rhs = gimple_assign_rhs1 (stmt);
5203 : 4894770 : poly_uint64 bitsize, bitpos = 0;
5204 : 4894770 : poly_uint64 bitregion_start = 0, bitregion_end = 0;
5205 : 4894770 : tree base_addr
5206 : 4894770 : = mem_valid_for_store_merging (lhs, &bitsize, &bitpos,
5207 : 4894770 : &bitregion_start, &bitregion_end);
5208 : 4894770 : if (known_eq (bitsize, 0U))
5209 : : return false;
5210 : :
5211 : 4893588 : bool invalid = (base_addr == NULL_TREE
5212 : 4893588 : || (maybe_gt (bitsize,
5213 : : (unsigned int) MAX_BITSIZE_MODE_ANY_INT)
5214 : 163853 : && TREE_CODE (rhs) != INTEGER_CST
5215 : 163853 : && (TREE_CODE (rhs) != CONSTRUCTOR
5216 : 148857 : || CONSTRUCTOR_NELTS (rhs) != 0)));
5217 : 4893588 : enum tree_code rhs_code = ERROR_MARK;
5218 : 4893588 : bool bit_not_p = false;
5219 : 4893588 : struct symbolic_number n;
5220 : 4893588 : gimple *ins_stmt = NULL;
5221 : 14680764 : store_operand_info ops[2];
5222 : 4893588 : if (invalid)
5223 : : ;
5224 : 4873570 : else if (TREE_CODE (rhs) == STRING_CST)
5225 : : {
5226 : 4274 : rhs_code = STRING_CST;
5227 : 4274 : ops[0].val = rhs;
5228 : : }
5229 : 4869296 : else if (rhs_valid_for_store_merging_p (rhs))
5230 : : {
5231 : 2464848 : rhs_code = INTEGER_CST;
5232 : 2464848 : ops[0].val = rhs;
5233 : : }
5234 : 2404448 : else if (TREE_CODE (rhs) == SSA_NAME)
5235 : : {
5236 : 1563311 : gimple *def_stmt = SSA_NAME_DEF_STMT (rhs), *def_stmt1, *def_stmt2;
5237 : 1563311 : if (!is_gimple_assign (def_stmt))
5238 : : invalid = true;
5239 : 1001374 : else if (handled_load (def_stmt, &ops[0], bitsize, bitpos,
5240 : : bitregion_start, bitregion_end))
5241 : : rhs_code = MEM_REF;
5242 : 498596 : else if (gimple_assign_rhs_code (def_stmt) == BIT_NOT_EXPR)
5243 : : {
5244 : 484 : tree rhs1 = gimple_assign_rhs1 (def_stmt);
5245 : 484 : if (TREE_CODE (rhs1) == SSA_NAME
5246 : 484 : && is_gimple_assign (SSA_NAME_DEF_STMT (rhs1)))
5247 : : {
5248 : : bit_not_p = true;
5249 : : def_stmt = SSA_NAME_DEF_STMT (rhs1);
5250 : : }
5251 : : }
5252 : :
5253 : 1563311 : if (rhs_code == ERROR_MARK && !invalid)
5254 : 498596 : switch ((rhs_code = gimple_assign_rhs_code (def_stmt)))
5255 : : {
5256 : 14494 : case BIT_AND_EXPR:
5257 : 14494 : case BIT_IOR_EXPR:
5258 : 14494 : case BIT_XOR_EXPR:
5259 : 14494 : tree rhs1, rhs2;
5260 : 14494 : rhs1 = gimple_assign_rhs1 (def_stmt);
5261 : 14494 : rhs2 = gimple_assign_rhs2 (def_stmt);
5262 : 14494 : invalid = true;
5263 : 14494 : if (TREE_CODE (rhs1) != SSA_NAME)
5264 : : break;
5265 : 14494 : def_stmt1 = SSA_NAME_DEF_STMT (rhs1);
5266 : 14494 : if (!is_gimple_assign (def_stmt1)
5267 : 14494 : || !handled_load (def_stmt1, &ops[0], bitsize, bitpos,
5268 : : bitregion_start, bitregion_end))
5269 : : break;
5270 : 8373 : if (rhs_valid_for_store_merging_p (rhs2))
5271 : 3665 : ops[1].val = rhs2;
5272 : 4708 : else if (TREE_CODE (rhs2) != SSA_NAME)
5273 : : break;
5274 : : else
5275 : : {
5276 : 4708 : def_stmt2 = SSA_NAME_DEF_STMT (rhs2);
5277 : 4708 : if (!is_gimple_assign (def_stmt2))
5278 : : break;
5279 : 4589 : else if (!handled_load (def_stmt2, &ops[1], bitsize, bitpos,
5280 : : bitregion_start, bitregion_end))
5281 : : break;
5282 : : }
5283 : : invalid = false;
5284 : : break;
5285 : : default:
5286 : : invalid = true;
5287 : : break;
5288 : : }
5289 : :
5290 : 1563311 : unsigned HOST_WIDE_INT const_bitsize;
5291 : 1563311 : if (bitsize.is_constant (&const_bitsize)
5292 : 1563311 : && (const_bitsize % BITS_PER_UNIT) == 0
5293 : 1550193 : && const_bitsize <= 64
5294 : 1387134 : && multiple_p (bitpos, BITS_PER_UNIT))
5295 : : {
5296 : 1386859 : ins_stmt = find_bswap_or_nop_1 (def_stmt, &n, 12);
5297 : 1386859 : if (ins_stmt)
5298 : : {
5299 : 496520 : uint64_t nn = n.n;
5300 : 496520 : for (unsigned HOST_WIDE_INT i = 0;
5301 : 3536783 : i < const_bitsize;
5302 : 3040263 : i += BITS_PER_UNIT, nn >>= BITS_PER_MARKER)
5303 : 3049547 : if ((nn & MARKER_MASK) == 0
5304 : 3049547 : || (nn & MARKER_MASK) == MARKER_BYTE_UNKNOWN)
5305 : : {
5306 : : ins_stmt = NULL;
5307 : : break;
5308 : : }
5309 : 496520 : if (ins_stmt)
5310 : : {
5311 : 487236 : if (invalid)
5312 : : {
5313 : 59234 : rhs_code = LROTATE_EXPR;
5314 : 59234 : ops[0].base_addr = NULL_TREE;
5315 : 59234 : ops[1].base_addr = NULL_TREE;
5316 : : }
5317 : : invalid = false;
5318 : : }
5319 : : }
5320 : : }
5321 : :
5322 : 1076075 : if (invalid
5323 : 993996 : && bitsize.is_constant (&const_bitsize)
5324 : 993996 : && ((const_bitsize % BITS_PER_UNIT) != 0
5325 : 981807 : || !multiple_p (bitpos, BITS_PER_UNIT))
5326 : 1101003 : && const_bitsize <= MAX_FIXED_MODE_SIZE)
5327 : : {
5328 : : /* Bypass a conversion to the bit-field type. */
5329 : 12464 : if (!bit_not_p
5330 : 12464 : && is_gimple_assign (def_stmt)
5331 : 18487 : && CONVERT_EXPR_CODE_P (rhs_code))
5332 : : {
5333 : 4887 : tree rhs1 = gimple_assign_rhs1 (def_stmt);
5334 : 4887 : if (TREE_CODE (rhs1) == SSA_NAME
5335 : 4887 : && INTEGRAL_TYPE_P (TREE_TYPE (rhs1)))
5336 : : rhs = rhs1;
5337 : : }
5338 : 12464 : rhs_code = BIT_INSERT_EXPR;
5339 : 12464 : bit_not_p = false;
5340 : 12464 : ops[0].val = rhs;
5341 : 12464 : ops[0].base_addr = NULL_TREE;
5342 : 12464 : ops[1].base_addr = NULL_TREE;
5343 : 12464 : invalid = false;
5344 : : }
5345 : : }
5346 : : else
5347 : : invalid = true;
5348 : :
5349 : 4032433 : unsigned HOST_WIDE_INT const_bitsize, const_bitpos;
5350 : 4032433 : unsigned HOST_WIDE_INT const_bitregion_start, const_bitregion_end;
5351 : 12464 : if (invalid
5352 : 3050901 : || !bitsize.is_constant (&const_bitsize)
5353 : 3050901 : || !bitpos.is_constant (&const_bitpos)
5354 : 3050901 : || !bitregion_start.is_constant (&const_bitregion_start)
5355 : 3050901 : || !bitregion_end.is_constant (&const_bitregion_end)
5356 : 4019969 : || ((const_bitregion_end - const_bitregion_start + 1) / BITS_PER_UNIT
5357 : 3050901 : > (unsigned) param_store_merging_max_size))
5358 : 1843001 : return terminate_all_aliasing_chains (NULL, stmt);
5359 : :
5360 : 3050587 : if (!ins_stmt)
5361 : 2563360 : memset (&n, 0, sizeof (n));
5362 : :
5363 : 3050587 : class imm_store_chain_info **chain_info = NULL;
5364 : 3050587 : bool ret = false;
5365 : 3050587 : if (base_addr)
5366 : 3050587 : chain_info = m_stores.get (base_addr);
5367 : :
5368 : 3050587 : store_immediate_info *info;
5369 : 3050587 : if (chain_info)
5370 : : {
5371 : 1188525 : unsigned int ord = (*chain_info)->m_store_info.length ();
5372 : 2377050 : info = new store_immediate_info (const_bitsize, const_bitpos,
5373 : : const_bitregion_start,
5374 : : const_bitregion_end,
5375 : : stmt, ord, rhs_code, n, ins_stmt,
5376 : : bit_not_p, lp_nr_for_store (stmt),
5377 : 1188525 : ops[0], ops[1]);
5378 : 1188525 : if (dump_file && (dump_flags & TDF_DETAILS))
5379 : : {
5380 : 203 : fprintf (dump_file, "Recording immediate store from stmt:\n");
5381 : 203 : print_gimple_stmt (dump_file, stmt, 0);
5382 : : }
5383 : 1188525 : (*chain_info)->m_store_info.safe_push (info);
5384 : 1188525 : m_n_stores++;
5385 : 1188525 : ret |= terminate_all_aliasing_chains (chain_info, stmt);
5386 : : /* If we reach the limit of stores to merge in a chain terminate and
5387 : : process the chain now. */
5388 : 1188525 : if ((*chain_info)->m_store_info.length ()
5389 : 1188525 : == (unsigned int) param_max_stores_to_merge)
5390 : : {
5391 : 441 : if (dump_file && (dump_flags & TDF_DETAILS))
5392 : 0 : fprintf (dump_file,
5393 : : "Reached maximum number of statements to merge:\n");
5394 : 441 : ret |= terminate_and_process_chain (*chain_info);
5395 : : }
5396 : : }
5397 : : else
5398 : : {
5399 : : /* Store aliases any existing chain? */
5400 : 1862062 : ret |= terminate_all_aliasing_chains (NULL, stmt);
5401 : :
5402 : : /* Start a new chain. */
5403 : 1862062 : class imm_store_chain_info *new_chain
5404 : 1862062 : = new imm_store_chain_info (m_stores_head, base_addr);
5405 : 3724124 : info = new store_immediate_info (const_bitsize, const_bitpos,
5406 : : const_bitregion_start,
5407 : : const_bitregion_end,
5408 : : stmt, 0, rhs_code, n, ins_stmt,
5409 : : bit_not_p, lp_nr_for_store (stmt),
5410 : 1862062 : ops[0], ops[1]);
5411 : 1862062 : new_chain->m_store_info.safe_push (info);
5412 : 1862062 : m_n_stores++;
5413 : 1862062 : m_stores.put (base_addr, new_chain);
5414 : 1862062 : m_n_chains++;
5415 : 1862062 : if (dump_file && (dump_flags & TDF_DETAILS))
5416 : : {
5417 : 49 : fprintf (dump_file, "Starting active chain number %u with statement:\n",
5418 : : m_n_chains);
5419 : 49 : print_gimple_stmt (dump_file, stmt, 0);
5420 : 49 : fprintf (dump_file, "The base object is:\n");
5421 : 49 : print_generic_expr (dump_file, base_addr);
5422 : 49 : fprintf (dump_file, "\n");
5423 : : }
5424 : : }
5425 : :
5426 : : /* Prune oldest chains so that after adding the chain or store above
5427 : : we're again within the limits set by the params. */
5428 : 3050587 : if (m_n_chains > (unsigned)param_max_store_chains_to_track
5429 : 3049199 : || m_n_stores > (unsigned)param_max_stores_to_track)
5430 : : {
5431 : 1395 : if (dump_file && (dump_flags & TDF_DETAILS))
5432 : 0 : fprintf (dump_file, "Too many chains (%u > %d) or stores (%u > %d), "
5433 : : "terminating oldest chain(s).\n", m_n_chains,
5434 : : param_max_store_chains_to_track, m_n_stores,
5435 : : param_max_stores_to_track);
5436 : 1395 : imm_store_chain_info **e = &m_stores_head;
5437 : 1395 : unsigned idx = 0;
5438 : 1395 : unsigned n_stores = 0;
5439 : 91372 : while (*e)
5440 : : {
5441 : 89977 : if (idx >= (unsigned)param_max_store_chains_to_track
5442 : 89977 : || (n_stores + (*e)->m_store_info.length ()
5443 : 88589 : > (unsigned)param_max_stores_to_track))
5444 : 1395 : ret |= terminate_and_process_chain (*e);
5445 : : else
5446 : : {
5447 : 88582 : n_stores += (*e)->m_store_info.length ();
5448 : 88582 : e = &(*e)->next;
5449 : 88582 : ++idx;
5450 : : }
5451 : : }
5452 : : }
5453 : :
5454 : : return ret;
5455 : : }
5456 : :
5457 : : /* Return true if STMT is a store valid for store merging. */
5458 : :
5459 : : static bool
5460 : 34095352 : store_valid_for_store_merging_p (gimple *stmt)
5461 : : {
5462 : 34095352 : return gimple_assign_single_p (stmt)
5463 : 15771367 : && gimple_vdef (stmt)
5464 : 8995054 : && lhs_valid_for_store_merging_p (gimple_assign_lhs (stmt))
5465 : 42857157 : && (!gimple_has_volatile_ops (stmt) || gimple_clobber_p (stmt));
5466 : : }
5467 : :
5468 : : enum basic_block_status { BB_INVALID, BB_VALID, BB_EXTENDED_VALID };
5469 : :
5470 : : /* Return the status of basic block BB wrt store merging. */
5471 : :
5472 : : static enum basic_block_status
5473 : 8498218 : get_status_for_store_merging (basic_block bb)
5474 : : {
5475 : 8498218 : unsigned int num_statements = 0;
5476 : 8498218 : unsigned int num_constructors = 0;
5477 : 8498218 : gimple_stmt_iterator gsi;
5478 : 8498218 : edge e;
5479 : 8498218 : gimple *last_stmt = NULL;
5480 : :
5481 : 63331119 : for (gsi = gsi_after_labels (bb); !gsi_end_p (gsi); gsi_next (&gsi))
5482 : : {
5483 : 55883838 : gimple *stmt = gsi_stmt (gsi);
5484 : :
5485 : 55883838 : if (is_gimple_debug (stmt))
5486 : 32182356 : continue;
5487 : :
5488 : 23701482 : last_stmt = stmt;
5489 : :
5490 : 23701482 : if (store_valid_for_store_merging_p (stmt) && ++num_statements >= 2)
5491 : : break;
5492 : :
5493 : 22675386 : if (is_gimple_assign (stmt)
5494 : 22675386 : && gimple_assign_rhs_code (stmt) == CONSTRUCTOR)
5495 : : {
5496 : 619212 : tree rhs = gimple_assign_rhs1 (stmt);
5497 : 619212 : if (VECTOR_TYPE_P (TREE_TYPE (rhs))
5498 : 124236 : && INTEGRAL_TYPE_P (TREE_TYPE (TREE_TYPE (rhs)))
5499 : 734494 : && gimple_assign_lhs (stmt) != NULL_TREE)
5500 : : {
5501 : 115282 : HOST_WIDE_INT sz
5502 : 115282 : = int_size_in_bytes (TREE_TYPE (rhs)) * BITS_PER_UNIT;
5503 : 115282 : if (sz == 16 || sz == 32 || sz == 64)
5504 : : {
5505 : : num_constructors = 1;
5506 : : break;
5507 : : }
5508 : : }
5509 : : }
5510 : : }
5511 : :
5512 : 8498218 : if (num_statements == 0 && num_constructors == 0)
5513 : : return BB_INVALID;
5514 : :
5515 : 888773 : if (cfun->can_throw_non_call_exceptions && cfun->eh
5516 : 888773 : && store_valid_for_store_merging_p (last_stmt)
5517 : 676791 : && (e = find_fallthru_edge (bb->succs))
5518 : 2496673 : && e->dest == bb->next_bb)
5519 : : return BB_EXTENDED_VALID;
5520 : :
5521 : 1930183 : return (num_statements >= 2 || num_constructors) ? BB_VALID : BB_INVALID;
5522 : : }
5523 : :
5524 : : /* Entry point for the pass. Go over each basic block recording chains of
5525 : : immediate stores. Upon encountering a terminating statement (as defined
5526 : : by stmt_terminates_chain_p) process the recorded stores and emit the widened
5527 : : variants. */
5528 : :
5529 : : unsigned int
5530 : 924300 : pass_store_merging::execute (function *fun)
5531 : : {
5532 : 924300 : basic_block bb;
5533 : 924300 : hash_set<gimple *> orig_stmts;
5534 : 924300 : bool changed = false, open_chains = false;
5535 : :
5536 : : /* If the function can throw and catch non-call exceptions, we'll be trying
5537 : : to merge stores across different basic blocks so we need to first unsplit
5538 : : the EH edges in order to streamline the CFG of the function. */
5539 : 924300 : if (cfun->can_throw_non_call_exceptions && cfun->eh)
5540 : 240822 : unsplit_eh_edges ();
5541 : :
5542 : 924300 : calculate_dominance_info (CDI_DOMINATORS);
5543 : :
5544 : 9422518 : FOR_EACH_BB_FN (bb, fun)
5545 : : {
5546 : 8498218 : const basic_block_status bb_status = get_status_for_store_merging (bb);
5547 : 8498218 : gimple_stmt_iterator gsi;
5548 : :
5549 : 8542586 : if (open_chains && (bb_status == BB_INVALID || !single_pred_p (bb)))
5550 : : {
5551 : 127909 : changed |= terminate_and_process_all_chains ();
5552 : 127909 : open_chains = false;
5553 : : }
5554 : :
5555 : 8498218 : if (bb_status == BB_INVALID)
5556 : 7392237 : continue;
5557 : :
5558 : 1105981 : if (dump_file && (dump_flags & TDF_DETAILS))
5559 : 23 : fprintf (dump_file, "Processing basic block <%d>:\n", bb->index);
5560 : :
5561 : 26035639 : for (gsi = gsi_after_labels (bb); !gsi_end_p (gsi); )
5562 : : {
5563 : 24929658 : gimple *stmt = gsi_stmt (gsi);
5564 : 24929658 : gsi_next (&gsi);
5565 : :
5566 : 24929658 : if (is_gimple_debug (stmt))
5567 : 15413544 : continue;
5568 : :
5569 : 18612261 : if (gimple_has_volatile_ops (stmt) && !gimple_clobber_p (stmt))
5570 : : {
5571 : : /* Terminate all chains. */
5572 : 9417 : if (dump_file && (dump_flags & TDF_DETAILS))
5573 : 1 : fprintf (dump_file, "Volatile access terminates "
5574 : : "all chains\n");
5575 : 9417 : changed |= terminate_and_process_all_chains ();
5576 : 9417 : open_chains = false;
5577 : 9417 : continue;
5578 : : }
5579 : :
5580 : 9506697 : if (is_gimple_assign (stmt)
5581 : 7708740 : && gimple_assign_rhs_code (stmt) == CONSTRUCTOR
5582 : 10667172 : && maybe_optimize_vector_constructor (stmt))
5583 : 1600 : continue;
5584 : :
5585 : 9505097 : if (store_valid_for_store_merging_p (stmt))
5586 : 4894770 : changed |= process_store (stmt);
5587 : : else
5588 : 4610327 : changed |= terminate_all_aliasing_chains (NULL, stmt);
5589 : : }
5590 : :
5591 : 1105981 : if (bb_status == BB_EXTENDED_VALID)
5592 : : open_chains = true;
5593 : : else
5594 : : {
5595 : 954838 : changed |= terminate_and_process_all_chains ();
5596 : 954838 : open_chains = false;
5597 : : }
5598 : : }
5599 : :
5600 : 924300 : if (open_chains)
5601 : 0 : changed |= terminate_and_process_all_chains ();
5602 : :
5603 : : /* If the function can throw and catch non-call exceptions and something
5604 : : changed during the pass, then the CFG has (very likely) changed too. */
5605 : 924300 : if (cfun->can_throw_non_call_exceptions && cfun->eh && changed)
5606 : : {
5607 : 910 : free_dominance_info (CDI_DOMINATORS);
5608 : 910 : return TODO_cleanup_cfg;
5609 : : }
5610 : :
5611 : : return 0;
5612 : 924300 : }
5613 : :
5614 : : } // anon namespace
5615 : :
5616 : : /* Construct and return a store merging pass object. */
5617 : :
5618 : : gimple_opt_pass *
5619 : 280114 : make_pass_store_merging (gcc::context *ctxt)
5620 : : {
5621 : 280114 : return new pass_store_merging (ctxt);
5622 : : }
5623 : :
5624 : : #if CHECKING_P
5625 : :
5626 : : namespace selftest {
5627 : :
5628 : : /* Selftests for store merging helpers. */
5629 : :
5630 : : /* Assert that all elements of the byte arrays X and Y, both of length N
5631 : : are equal. */
5632 : :
5633 : : static void
5634 : 32 : verify_array_eq (unsigned char *x, unsigned char *y, unsigned int n)
5635 : : {
5636 : 112 : for (unsigned int i = 0; i < n; i++)
5637 : : {
5638 : 80 : if (x[i] != y[i])
5639 : : {
5640 : 0 : fprintf (stderr, "Arrays do not match. X:\n");
5641 : 0 : dump_char_array (stderr, x, n);
5642 : 0 : fprintf (stderr, "Y:\n");
5643 : 0 : dump_char_array (stderr, y, n);
5644 : : }
5645 : 80 : ASSERT_EQ (x[i], y[i]);
5646 : : }
5647 : 32 : }
5648 : :
5649 : : /* Test shift_bytes_in_array_left and that it carries bits across between
5650 : : bytes correctly. */
5651 : :
5652 : : static void
5653 : 4 : verify_shift_bytes_in_array_left (void)
5654 : : {
5655 : : /* byte 1 | byte 0
5656 : : 00011111 | 11100000. */
5657 : 4 : unsigned char orig[2] = { 0xe0, 0x1f };
5658 : 4 : unsigned char in[2];
5659 : 4 : memcpy (in, orig, sizeof orig);
5660 : :
5661 : 4 : unsigned char expected[2] = { 0x80, 0x7f };
5662 : 4 : shift_bytes_in_array_left (in, sizeof (in), 2);
5663 : 4 : verify_array_eq (in, expected, sizeof (in));
5664 : :
5665 : 4 : memcpy (in, orig, sizeof orig);
5666 : 4 : memcpy (expected, orig, sizeof orig);
5667 : : /* Check that shifting by zero doesn't change anything. */
5668 : 4 : shift_bytes_in_array_left (in, sizeof (in), 0);
5669 : 4 : verify_array_eq (in, expected, sizeof (in));
5670 : :
5671 : 4 : }
5672 : :
5673 : : /* Test shift_bytes_in_array_right and that it carries bits across between
5674 : : bytes correctly. */
5675 : :
5676 : : static void
5677 : 4 : verify_shift_bytes_in_array_right (void)
5678 : : {
5679 : : /* byte 1 | byte 0
5680 : : 00011111 | 11100000. */
5681 : 4 : unsigned char orig[2] = { 0x1f, 0xe0};
5682 : 4 : unsigned char in[2];
5683 : 4 : memcpy (in, orig, sizeof orig);
5684 : 4 : unsigned char expected[2] = { 0x07, 0xf8};
5685 : 4 : shift_bytes_in_array_right (in, sizeof (in), 2);
5686 : 4 : verify_array_eq (in, expected, sizeof (in));
5687 : :
5688 : 4 : memcpy (in, orig, sizeof orig);
5689 : 4 : memcpy (expected, orig, sizeof orig);
5690 : : /* Check that shifting by zero doesn't change anything. */
5691 : 4 : shift_bytes_in_array_right (in, sizeof (in), 0);
5692 : 4 : verify_array_eq (in, expected, sizeof (in));
5693 : 4 : }
5694 : :
5695 : : /* Test clear_bit_region that it clears exactly the bits asked and
5696 : : nothing more. */
5697 : :
5698 : : static void
5699 : 4 : verify_clear_bit_region (void)
5700 : : {
5701 : : /* Start with all bits set and test clearing various patterns in them. */
5702 : 4 : unsigned char orig[3] = { 0xff, 0xff, 0xff};
5703 : 4 : unsigned char in[3];
5704 : 4 : unsigned char expected[3];
5705 : 4 : memcpy (in, orig, sizeof in);
5706 : :
5707 : : /* Check zeroing out all the bits. */
5708 : 4 : clear_bit_region (in, 0, 3 * BITS_PER_UNIT);
5709 : 4 : expected[0] = expected[1] = expected[2] = 0;
5710 : 4 : verify_array_eq (in, expected, sizeof in);
5711 : :
5712 : 4 : memcpy (in, orig, sizeof in);
5713 : : /* Leave the first and last bits intact. */
5714 : 4 : clear_bit_region (in, 1, 3 * BITS_PER_UNIT - 2);
5715 : 4 : expected[0] = 0x1;
5716 : 4 : expected[1] = 0;
5717 : 4 : expected[2] = 0x80;
5718 : 4 : verify_array_eq (in, expected, sizeof in);
5719 : 4 : }
5720 : :
5721 : : /* Test clear_bit_region_be that it clears exactly the bits asked and
5722 : : nothing more. */
5723 : :
5724 : : static void
5725 : 4 : verify_clear_bit_region_be (void)
5726 : : {
5727 : : /* Start with all bits set and test clearing various patterns in them. */
5728 : 4 : unsigned char orig[3] = { 0xff, 0xff, 0xff};
5729 : 4 : unsigned char in[3];
5730 : 4 : unsigned char expected[3];
5731 : 4 : memcpy (in, orig, sizeof in);
5732 : :
5733 : : /* Check zeroing out all the bits. */
5734 : 4 : clear_bit_region_be (in, BITS_PER_UNIT - 1, 3 * BITS_PER_UNIT);
5735 : 4 : expected[0] = expected[1] = expected[2] = 0;
5736 : 4 : verify_array_eq (in, expected, sizeof in);
5737 : :
5738 : 4 : memcpy (in, orig, sizeof in);
5739 : : /* Leave the first and last bits intact. */
5740 : 4 : clear_bit_region_be (in, BITS_PER_UNIT - 2, 3 * BITS_PER_UNIT - 2);
5741 : 4 : expected[0] = 0x80;
5742 : 4 : expected[1] = 0;
5743 : 4 : expected[2] = 0x1;
5744 : 4 : verify_array_eq (in, expected, sizeof in);
5745 : 4 : }
5746 : :
5747 : :
5748 : : /* Run all of the selftests within this file. */
5749 : :
5750 : : void
5751 : 4 : store_merging_cc_tests (void)
5752 : : {
5753 : 4 : verify_shift_bytes_in_array_left ();
5754 : 4 : verify_shift_bytes_in_array_right ();
5755 : 4 : verify_clear_bit_region ();
5756 : 4 : verify_clear_bit_region_be ();
5757 : 4 : }
5758 : :
5759 : : } // namespace selftest
5760 : : #endif /* CHECKING_P. */
|